(1) Vorverarbeitung der Transkriptionen Sämtliche Transkriptionen in den Dateien khz*.txt werden nach UTF-8 konvertiert. Bei den Dateinamen der Druckseiten werden Umlaute und Leerzeichen ersetzt. Aus dem Erfassungsprotokoll wird teilweise automatisch die Datei metadata.csv gewonnen, die für jede Zeitschrift den Zeitschriftennamen, eine Zuordnung zu den originalen Dateinamen der Druckseiten (mit Umlauten), sowie den angepassten Dateinamen enthält. Bemerkung: khz0314a.txt enthält keine Transkription von Augsburg0139.jpg. Die aus dem Erfassungsprotokoll extrahierte Metadatentabelle metadata.csv ist entsprechend angepasst. Mithilfe der Datei metadata.csv werden die Transkriptionen, die sich jeweils auf mehrere, nicht notwendigerweise fortlaufende Druckseiten beziehen, in einzelne Dateien pro Druckseite aufgeteilt, sowie in dieselbe Verzeichnisstruktur wie die Druckseiten gebracht. Darüberhinaus erfolgt keine Veränderung der Transkriptionen. (2) Repository-Struktur Das Korpus ist als Sammlung (Dublin Core Typ: Collection) von Zeitschriften repräsentiert. Die Zeitschriften sind ihrerseits als Sammlung von Seiten (Dublin Core Typ: Text) repräsentiert. Für jede Ebene (Korpus, Zeitschrift, Seite) werden Dublin-Core-Metadaten (DC) teilweise automatisch erstellt: Insbesondere Titel (DC:title), Beschreibung (DC:description), sowie für die Ebenen Korpus und Zeitschrift der Zeitraum des Erscheinens in Jahren (DC:coverage). Der Titel der Seiten setzt sich aus dem Titel der Zeitschrift und einer aus der Transkription extrahierten Seitenzahl zusammen. Zur Beschreibung (DC:description) der Seiten werden mit einem heuristischen, regelbasierten Verfahren alle zentrierten Texte außerhalb eines Paragraphen aus den Transkriptionen extrahiert. In der Regel sind diese zentrierten Texte Überschriften. Alle Objekte (Korpus, Zeitschrift, Seite), sowie die eigentlichen Inhalte (Transkriptionen und Druckseiten) erhalten einen sogenannten persistenten Identifikator (PID), der auch zur Verknüpfung (DC:isPartOf, DC:hasPart) der einzelnen Objekte verwendet wird. Das zugrundeliegende XML Schema der Metadaten ist die CMDI-Komponente OLAC-Dcmi, die eine mögliche Serialisierung der Dublin-Core-Empfehlung darstellt. Das Gesamtkorpus in seiner ursprünglichen Form (ohne die Vorverarbeitung in (1)), sowie die mitgelieferte Dokumentation (Erfassungsprotokoll) wird als gepacktes Archiv im Repository abgelegt und ebenfalls mit einem PID versehen.