Metadaten#
Metadaten sind Daten über Daten. Sie liefern kontextuelle Informationen, die helfen, die Bedeutung, Herkunft, Struktur und Nutzungsmöglichkeiten eines Datensatzes besser zu verstehen. In den Digital Humanities sind Metadaten unerlässlich, um die Volltextkorpora systematisch zu organisieren, auffindbar zu machen und deren inhaltliche und strukturelle Qualität zu sichern.
Metadatenschemata
Es gibt verschiedene Metadatenschemata, die entwickelt wurden, um spezifische Anforderungen unterschiedlicher Disziplinen und Anwendungen zu erfüllen. Zu den bekanntesten gehören:
Dublin Core: Ein einfaches und weit verbreitetes Schema, das 15 grundlegende Elemente umfasst, wie Titel, Autor, Thema und Datum.
TEI (Text Encoding Initiative): Speziell für Texte entwickelt, bietet TEI detaillierte Richtlinien zur Auszeichnung von Texten und zur Erfassung von deren Metadaten im
<teiHeader>
.MODS (Metadata Object Description Schema): Von der Library of Congress entwickelt, bietet MODS eine umfangreichere Beschreibung als Dublin Core und ist besonders für bibliographische Informationen geeignet.
METS (Metadata Encoding and Transmission Standard): Ein Standard zur Kodierung und Übertragung von Digitalisaten und deren Metadaten, häufig in Bibliotheken und Archiven verwendet.
Metadaten zur Beschreibung eines Korpus#
Bei der Beschreibung eines gesamten Korpus sind die Metadaten entscheidend, um den Kontext, den Umfang und die Struktur des Korpus zu dokumentieren. Wichtige Aspekte sind unter anderem:
Titel und Beschreibung: Um das Korpus eindeutig zu identifizieren und dessen Inhalt zu beschreiben.
Ersteller:innen und/oder Herausgeber:innen: Angaben zu den Personen oder Institutionen, die das Korpus erstellt und veröffentlicht haben.
Datum: Zeitangaben zur Erstellung und Veröffentlichung des Korpus.
Umfang und Format: Informationen über die Anzahl der enthaltenen Dokumente und deren Dateiformate.
Sprache: Die im Korpus vertretenen Sprachen.
Thematik und Schlagworte: Stichworte, die die inhaltlichen Schwerpunkte des Korpus beschreiben.
Beispiel unter Verwendung Dublin Core
Ein beispielhaftes Metadaten-Set für ein Korpus könnte unter Verwendung von Dublin Core so aussehen:
DC.title: “Zeitungskorpus zur Spanischen Grippe in Berlin, 1918/1919”
DC.description: “Eine Sammlung digitalisierter Zeitungsartikel aus deutschen Zeitungen mit Erscheinungsort Berlin aus den Jahren 1918 und 1919”
DC.creator: “Henny Sluyter-Gäthje, Daniil Skorinkin, Peer Trilcke für QUADRIGA. Berlin-Brandenburgische Datenkompetenzzentrum für Digital Humanities und Verwaltungswissenschaft”
DC.publisher: “”ZEitungsinFormationssYStem der Staatsbibliothek zu Berlin””
DC.date: “2024-06-01”
DC.format: “PDF, TXT, CSV”
DC.language: “Deutsch”
DC.subject: “Geschichte, Medienwissenschaft”
DC.coverage: “20. Jahrhundert, Deutschland”
Metadaten für einzelne Korpus-Elemente#
Für einzelne Elemente eines Korpus, wie beispielsweise einzelne Artikel oder Dokumente, sind spezifische Metadaten notwendig, um diese präzise zu identifizieren und zu kontextualisieren. Wichtige Metadaten umfassen hier z.B.:
Titel und Autor:innen: Um das Dokument eindeutig zu identifizieren.
Datum der Veröffentlichung: Für zeitliche Einordnung.
Quelle: Angaben zur ursprünglichen Publikation oder Fundort.
Sprache: Die im Dokument verwendete Sprache.
Identifier: Ein eindeutiger Identifikator wie eine DOI oder eine andere Art von Kennung.
Beispiel unter Verwendung von Dublin Core
Für einen einzelnen Zeitungsartikel könnten die Metadaten so aussehen:
DC.title: “Die Grippe wütet weiter”
DC.creator: “N.N.”
DC.date: “1918-10-15”
DC.publisher: “Berliner Morgenpost”
DC.subject: “Spanische Grippe”
DC.coverage: “1918, Berlin”
DC.language: “Deutsch”
DC.identifier: “SNP2719372X-19181015-0-0-0-0”
Durch die sorgfältige Erfassung und Verwaltung von Metadaten auf beiden Ebenen – sowohl für das gesamte Korpus als auch für einzelne Elemente – wird die Nutzbarkeit und Nachnutzbarkeit von Forschungsdaten in den Digital Humanities erheblich verbessert. Dies trägt zur besseren Auffindbarkeit, Nachvollziehbarkeit und langfristigen Erhaltung der Daten bei.