Diese Seite beschreibt, welche Formate für die Übernahme ins Langzeitarchiv und Repositorium des Leibniz-Instituts für Deutsche Sprache vorgesehen sind und wie mit ihnen umgegangen wird.
Die Hauptanlaufstellen für Datengeber*innen sind bezüglich Schriftkorpora das Projekt Ausbau und Pflege der Korpora geschriebener Gegenwartssprache für das Deutsche Referenzkorpus (DeReKo) und bezüglich Korpora gesprochener Sprache das Archiv für Gesprochenes Deutsch mit der Datenbank für Gesprochenes Deutsch (AGD mit DGD), da dies die beiden großen Korpora bzw. Korpussammlungen des IDS sind. Das Langzeitarchiv und Repositorium des Leibniz-Instituts für Deutsche Sprache übernimmt mittelfristig alle dort abgelegten Daten und orientiert sich an deren Formatvorgaben für den Import.
Die Datenübernahmerichtlinien des Leibniz-Instituts für Deutsche Sprache geben weitere Informationen zur Datenübernahme.
Daten werden nicht zwingend in den gelieferten Formaten abgespeichert, sondern ggf. in Formate konvertiert, die für die Langzeitarchivierung geeignet sind.
Ein auf die Sprachwissenschaft ausgerichteter Überblick über die Landschaft der Formate, best practices und Standards findet sich in den Empfehlungen des DFG-Fachkollegiums 104 “Sprachwissenschaften”
Allgemeine Datenformate
Die in diesem Abschnitt genannten Datenformate sind für alle Anlieferungen akzeptabel. Für spezifische Anlieferungen bei DGD und DeReKo s.u.
Daten, die nicht den empfohlen Formaten entsprechen, haben in der Regel einen höheren Kurationsaufwand. Sie können daher nur nach vorheriger Abstimmung und einer Abschätzung des Aufwands angenommen werden, sofern die entsprechenden Kapazitäten zur Verfügung stehen bzw. zur Verfügung gestellt werden.
Plain Text und XML werden grundsätzlich nur in Unicode-Kodierung akzeptiert, also UTF-8 (⊇ ASCII), notfalls UTF-16 oder UTF-32.
Datendokumentation
- plain Text
- ggf. PDF/A
Formate für Metadaten
- CMDI
- Dublin Core DCMI
- TEI Header Tags
Formate für Grafiken
- PNG
- JPEG
- TIFF
Formate für layoutete Dokumente und Scans
Bei wissenschaftlich zu verwerteten Dokumenten sollte auch eine XML- oder Plain-Text-Transkription beigefügt werden.
- PDF/A
- TIFF
Andere, v.a. nummerische Daten
- CSV (mit Dokumentation der Trenner und der Textcodierung), HDF5
- Grundsätzlich muss die Bedeutung der Spalten und Zeilen etc. dokumentiert sein, damit die Daten nutzbar bleiben.
DeReKo: Übernahme
Die folgenden Formate werden bevorzugt.
Formate für Texte
- I5, TEI allgemein, sinnvollerweise mit ODD oder anderem Schema, plain text (ohne Auszeichnungen), HTML (ohne JS etc.)
- standardisierte Formate wie ISO 24615-*/*.
- PAULA, SALT
Relevante Standards:
- ALTO
- Analyzed Layout and Text Object. http://www.loc.gov/standards/alto/
- DTABf
- DTA-Basisformat http://www.deutschestextarchiv.de/basisformat
- hOCR
- hOCR - OCR Workflow and Output embedded in HTML. http://kba.cloud/hocr-spec/1.2/LhwPcjtAUFwBlzE8EWnKAxlgVf0/preview
- I5
- Customisierung von TEI P5 für DeReKo http://www1.ids-mannheim.de/kl/projekte/korpora/textmodell.html
- LAF/GrAF
- Ide, N. and Suderman, K. (2007). GrAF: A Graph-based Format for Linguistic An- notations. Proceedings of the Linguistic Annotation Workshop, held in conjunction with ACL 2007, Prague, June 28-29, 1-8. http://www.cs.vassar.edu/~ide/papers/LAW.pdf
- PAULA
- https://www.sfb632.uni-potsdam.de/en/paula.html
- STTS
- Stuttgart Tübingen Tagset. Anne Schiller, Simone Teufel, Christine Stöckert, Christine Thielen (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset). http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf
AGD: Formate für Video- und Tonaufnahmen
(nach http://agd.ids-mannheim.de/uebernahme.shtml)
Audio
- Bevorzugt
- PCM-WAV, 48 kHz, 16 bit
- Unproblematisch
- PCM-WAV mit anderen Parametern, AIF, FLAC oder andere unkomprimierte bzw. verlustfrei komprimierte Formate
Formate mit verlustbehafteter Kompression (wie MP3) sollten nach Möglichkeit vermieden werden.
Video
- Bevorzugt
- MPEG-4 mit H.264 / MPEG-4 Part 10 AVC, Framerate: 25 fps, Einzelbildgröße 1920×1080, konstante Bitrate
- Unproblematisch
- MPEG-4 mit geringerer Auflösung, andere MPEG-konforme Formate (MPEG-1, MPEG-2), Motion JPEG 2000
Nicht-MPEG-konforme Formate, zu geringe Auflösungen und andere Framerates sollten nach Möglichkeit vermieden werden. Transkription
Annotation
- Bevorzugt
- alignierte Daten in EXMARaLDA, FOLKER, oder nach ISO-Standard
- Unproblematisch
- ELAN, Praat TextGrids, ANVIL oder Transcriber
CHAT/CLAN, F4, Transana, Text- (TXT) oder Office-Formate (DOCX etc.) sollten nach Möglichkeit vermieden werden.
Metadaten
- Bevorzugt
- EXMARaLDA-COMA, CMDI-konforme Metadaten oder DGD-konforme XML-Daten
- Unproblematisch
- Andere strukturierte Formate (XML oder Tabellenformate wie CSV, XLSX/Excel)
Andere Office-Formate (DOCX etc.) sollten nach Möglichkeit vermieden werden.