Diese Seite beschreibt, welche Formate für die Übernahme ins Langzeitarchiv und Repositorium des Leibniz-Instituts für Deutsche Sprache vorgesehen sind und wie mit ihnen umgegangen wird.

Die Hauptanlaufstellen für Datengeber*innen sind bezüglich Schriftkorpora das Projekt Ausbau und Pflege der Korpora geschriebener Gegenwartssprache für das Deutsche Referenzkorpus (DeReKo) und bezüglich Korpora gesprochener Sprache das Archiv für Gesprochenes Deutsch mit der Datenbank für Gesprochenes Deutsch (AGD mit DGD), da dies die beiden großen Korpora bzw. Korpussammlungen des IDS sind. Das Langzeitarchiv und Repositorium des Leibniz-Instituts für Deutsche Sprache übernimmt mittelfristig alle dort abgelegten Daten und orientiert sich an deren Formatvorgaben für den Import.

Die Datenübernahmerichtlinien des Leibniz-Instituts für Deutsche Sprache geben weitere Informationen zur Datenübernahme.

Daten werden nicht zwingend in den gelieferten Formaten abgespeichert, sondern ggf. in Formate konvertiert, die für die Langzeitarchivierung geeignet sind.

Ein auf die Sprachwissenschaft ausgerichteter Überblick über die Landschaft der Formate, best practices und Standards findet sich in den Empfehlungen des DFG-Fachkollegiums 104 “Sprachwissenschaften”

Allgemeine Datenformate

Die in diesem Abschnitt genannten Datenformate sind für alle Anlieferungen akzeptabel. Für spezifische Anlieferungen bei DGD und DeReKo s.u.

Daten, die nicht den empfohlen Formaten entsprechen, haben in der Regel einen höheren Kurationsaufwand. Sie können daher nur nach vorheriger Abstimmung und einer Abschätzung des Aufwands angenommen werden, sofern die entsprechenden Kapazitäten zur Verfügung stehen bzw. zur Verfügung gestellt werden.

Plain Text und XML werden grundsätzlich nur in Unicode-Kodierung akzeptiert, also UTF-8 (⊇ ASCII), notfalls UTF-16 oder UTF-32.

Datendokumentation

  • plain Text
  • ggf. PDF/A

Formate für Metadaten

  • CMDI
  • Dublin Core DCMI
  • TEI Header Tags

Formate für Grafiken

  • PNG
  • JPEG
  • TIFF

Formate für layoutete Dokumente und Scans

Bei wissenschaftlich zu verwerteten Dokumenten sollte auch eine XML- oder Plain-Text-Transkription beigefügt werden.

  • PDF/A
  • TIFF

Andere, v.a. nummerische Daten

  • CSV (mit Dokumentation der Trenner und der Textcodierung), HDF5
  • Grundsätzlich muss die Bedeutung der Spalten und Zeilen etc. dokumentiert sein, damit die Daten nutzbar bleiben.

DeReKo: Übernahme

Die folgenden Formate werden bevorzugt.

Formate für Texte

  • I5, TEI allgemein, sinnvollerweise mit ODD oder anderem Schema, plain text (ohne Auszeichnungen), HTML (ohne JS etc.)
  • standardisierte Formate wie ISO 24615-*/*.
  • PAULA, SALT

Relevante Standards:

ALTO
Analyzed Layout and Text Object. http://www.loc.gov/standards/alto/
DTABf
DTA-Basisformat http://www.deutschestextarchiv.de/basisformat
hOCR
hOCR - OCR Workflow and Output embedded in HTML. http://kba.cloud/hocr-spec/1.2/LhwPcjtAUFwBlzE8EWnKAxlgVf0/preview
I5
Customisierung von TEI P5 für DeReKo http://www1.ids-mannheim.de/kl/projekte/korpora/textmodell.html
LAF/GrAF
Ide, N. and Suderman, K. (2007). GrAF: A Graph-based Format for Linguistic An- notations. Proceedings of the Linguistic Annotation Workshop, held in conjunction with ACL 2007, Prague, June 28-29, 1-8. http://www.cs.vassar.edu/~ide/papers/LAW.pdf
PAULA
https://www.sfb632.uni-potsdam.de/en/paula.html
STTS
Stuttgart Tübingen Tagset. Anne Schiller, Simone Teufel, Christine Stöckert, Christine Thielen (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset). http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf

AGD: Formate für Video- und Tonaufnahmen

(nach http://agd.ids-mannheim.de/uebernahme.shtml)

Audio

Bevorzugt
PCM-WAV, 48 kHz, 16 bit
Unproblematisch
PCM-WAV mit anderen Parametern, AIF, FLAC oder andere unkomprimierte bzw. verlustfrei komprimierte Formate

Formate mit verlustbehafteter Kompression (wie MP3) sollten nach Möglichkeit vermieden werden.

Video

Bevorzugt
MPEG-4 mit H.264 / MPEG-4 Part 10 AVC, Framerate: 25 fps, Einzelbildgröße 1920×1080, konstante Bitrate
Unproblematisch
MPEG-4 mit geringerer Auflösung, andere MPEG-konforme Formate (MPEG-1, MPEG-2), Motion JPEG 2000

Nicht-MPEG-konforme Formate, zu geringe Auflösungen und andere Framerates sollten nach Möglichkeit vermieden werden. Transkription

Annotation

Bevorzugt
alignierte Daten in EXMARaLDA, FOLKER, oder nach ISO-Standard
Unproblematisch
ELAN, Praat TextGrids, ANVIL oder Transcriber

CHAT/CLAN, F4, Transana, Text- (TXT) oder Office-Formate (DOCX etc.) sollten nach Möglichkeit vermieden werden.

Metadaten

Bevorzugt
EXMARaLDA-COMA, CMDI-konforme Metadaten oder DGD-konforme XML-Daten
Unproblematisch
Andere strukturierte Formate (XML oder Tabellenformate wie CSV, XLSX/Excel)

Andere Office-Formate (DOCX etc.) sollten nach Möglichkeit vermieden werden.