Resümee#
Key points des Kapitels
Korpora als Forschungsobjekte
Korpora sind systematisch zusammengestellte Sammlungen maschinenlesbarer Textdokumente. Je nach Forschungszweck können verschiedene Strategien zum Aufbau gewählt werden, von vollständigen bis hin zu repräsentativen Stichproben.
Digitale Textformate
Für die Korpuserstellung stehen unterschiedliche Formate zur Verfügung: Bilddigitalisate (PDF, PNG) für visuelle Authentizität, Plain Text (TXT) für einfache Verarbeitung, XML/TEI für strukturierte Auszeichnung und CSV für tabellarische Annotationen.
Metadaten
Die systematische Dokumentation erfolgt durch Metadaten auf zwei Ebenen: Korpus-Metadaten beschreiben die Gesamtsammlung, Element-Metadaten die einzelnen Dokumente. Etablierte Standards wie Dublin Core bieten hierfür standardisierte Schemata.
Praktische Umsetzung
Der praktische Korpusaufbau erfolgt in drei Schritten: Konzeptentwicklung, Metadatenerstellung und Datensammlung. Dabei müssen sowohl forschungsmethodische Anforderungen als auch praktische Beschränkungen berücksichtigt werden.