Resümee

Resümee#

Key points des Kapitels

Korpora als Forschungsobjekte

Korpora sind systematisch zusammengestellte Sammlungen maschinenlesbarer Textdokumente. Je nach Forschungszweck können verschiedene Strategien zum Aufbau gewählt werden, von vollständigen bis hin zu repräsentativen Stichproben.

Digitale Textformate

Für die Korpuserstellung stehen unterschiedliche Formate zur Verfügung: Bilddigitalisate (PDF, PNG) für visuelle Authentizität, Plain Text (TXT) für einfache Verarbeitung, XML/TEI für strukturierte Auszeichnung und CSV für tabellarische Annotationen.

Metadaten

Die systematische Dokumentation erfolgt durch Metadaten auf zwei Ebenen: Korpus-Metadaten beschreiben die Gesamtsammlung, Element-Metadaten die einzelnen Dokumente. Etablierte Standards wie Dublin Core bieten hierfür standardisierte Schemata.

Praktische Umsetzung

Der praktische Korpusaufbau erfolgt in drei Schritten: Konzeptentwicklung, Metadatenerstellung und Datensammlung. Dabei müssen sowohl forschungsmethodische Anforderungen als auch praktische Beschränkungen berücksichtigt werden.