Korpora als Forschungsobjekte der Digital Humanities#

Für die Forschung in den textbasierten Digital Humanities hat sich das Korpus als das wichtigste epistemische Objekt herauskristallisiert. Korpora lassen sich dabei vereinfacht verstehen als

  • Sammlungen von maschinenlesbaren Textdokumenten,

  • die nach bestimmten Kriterien zusammengestellt wurden.

Eine besondere Variante von Korpora sind Referenzkorpora, bei deren Zusammenstellung besondere Aufmerksamkeit darauf gelegt wurde, dass diese Korpora für eine bestimmte Domäne repräsentativ sein können.

In welchen Formaten die Texte in einem Korpus vorliegen, hängt davon ab, für welche Zwecke ein Korpus aufgebaut wird (siehe zu Formaten auch den nächsten Abschnitt “Texte als digitales Objekte”).

Die Elemente eines Korpus können nach unterschiedlichen Strategien mit jeweils spezifischen Kriterien ausgewählt werden. Für Datensammlung insgesamt (und damit auch für Korpora als besonderer Typus der Datensammlung) hat [Schöch, 2017] vier Strategien unterschieden:

1. Vollständiges Korpus#

Ein vollständiges Korpus umfasst alle verfügbaren Textobjekte zu einem spezifischen Gegenstandsbereich.

  • Voraussetzung: Möglich bei klar begrenzten und gut dokumentierten

  • Anwendung: Geeignet in der Regel nur für kleine, klar definierbare Untersuchungsbereiche.

  • Beispiel: Alle Gedichte von Friederike Mayröcker oder alle Ausgaben der Berliner Morgenpost aus dem Jahr 1918

2. Repräsentative Stichprobe#

Eine Stichprobe, die die gesamte Variabilität der Grundgesamtheit abbildet. Repräsentativität ist dabei das Ergebnis statistischer Operationen.

  • Voraussetzung: Grundgesamtheit muss bekannt und gut dokumentiert sein; Zufällige Auswahl der Datensätze ist erforderlich.

  • Anwendung: Ermöglicht gültige Aussagen über die Grundgesamtheit und dient als Referenz für andere Studien.

  • Beispiel: Eine repräsentative Auswahl von 100 Romanen aus dem 19. Jahrhundert, die zufällig ausgewählt wurden, um die Vielfalt dieser Epoche zu repräsentieren; siehe die Korpora der European Literary Text Collection (ELTeC)

3. Balanciertes Korpus#

Eine gezielt nach bestimmten Kriterien zusammengestellte Auswahl, die alle wesentlichen Merkmale des Gegenstandsbereichs möglichst gleichmäßig abdeckt.

  • Voraussetzung: Klar definierte Kriterien und gezielte Auswahl, um statistische Korrelationen zu vermeiden.

  • Anwendung: Ideal für Studien, die Unterschiede und Entwicklungen innerhalb einer Kategorie analysieren wollen, z.B. die Entwicklung literarischer

  • Beispiel: Eine Sammlung von Romanen aus verschiedenen Jahrzehnten und Untergattungen, mit breiter Variation in Autoren, Erzählperspektiven und Handlungsorten, Untergattungen.

4. Opportunistisches Korpus#

Eine Sammlung, deren Auswahl nur durch die Verfügbarkeit von Daten geleitet wird.

  • Voraussetzung: Digitale Verfügbarkeit der Daten.

  • Anwendung: Geeignet für wenig erschlossene Forschungsbereiche oder erste Explorationen, bleibt allerdings insgesamt unbefriedigend, da nicht beurteilt werden kann, was die Sammlung abbildet.

  • Beispiel: Das “Deutsche Lyrik Korpus (DLK)”, das alle verfügbaren Gedichte in deutscher Sprache zu aggregieren versucht, oder das German Drama Corpus (GerDraCor), das sukzessive digital verfügbare deutschsprachige Dramen sammelt.

Zusammenfassung#

Mit welcher Strategie und nach welchen Kriterien ein Korpus aufgebaut wird, entscheidet darüber, welche Forschungsfragen sich mit ihm überhaupt sinnvoll und belastbar beantworten lassen. Mit dem Korpusaufbau wird dabei das epistemische Objekt der Forschung konstruiert. Entsprechend reflektiert sollte man bei diesem Vorgang vorgehen. Darüber hinaus ist eine Reflektion auf die korpusbedingten Grenzen der Analyseergebnisse unabdingbarer Bestandteil von Digital Humanities-Forschungsprojekten.

Weiterführende Links

Bibliographie#

[Bla]

missing year in fortext-2020-id-203

[Schoch17]

Christof Schöch. Aufbau von Datensammlungen, pages 223–233. J.B. Metzler, Stuttgart, 2017. doi:10.1007/978-3-476-05446-3_16.