Aufbau des Forschungskorpus#
Um das Korpus für unser Forschungsprojekt aufzubauen, müssen nun drei Punkte abgearbeitet werden:
Das Korpuskonzept, also auch die Sammlungsstrategie, muss ausgearbeitet und im besten Fall in den Korpus-Metadaten festgehalten werden.
Die Elemente des Korpus müssen festgelegt und ebenfalls mit zumindest basalen Metadaten beschrieben werden.
Die Sammlung der Elemente muss durchgeführt werden.
1. Korpuskonzept#
Als Untersuchungsgegenstand wurde oben “Texte in Berliner Tageszeitungen” angegeben, wobei wir uns auf den Zeitraum der Spanischen Grippe-Pandemie beschränken wollen. Als Zeitraum für die Spanische Grippe gibt Wikipedia “February 1918 – April 1920” an. Ebenfalls auf Wikipedia wird angegeben, dass es um 1925 in Berlin “30 Tageszeitungen” gab. Geht man nur von einer Ausgabe pro Tag aus (was wenig ist, da viele Zeitungen in dieser Zeit in Morgen- und Abendausgabe erscheinen), würde ein vollständiges Korpus für diesen Untersuchungsgegenstand 24.570 Ausgaben von Tageszeitungen umfassen. Bei unseren Recherchen haben wir als mögliche Quelle für die Korpuselemente das “ZEitungsinFormationssYStem der Staatsbibliothek zu Berlin”, kurz “ZEFYS”, identifiziert, das zu zahlreichen Berliner Tageszeitungen unseres Untersuchungszeitraums Bilddigitalisate (u.a. im PDF-Format) führt. Eine von uns durchgeführte Stichproben hat dabei ergeben, das dass PDF einer Ausgabe im Durchschnitt etwa 74 MB groß ist. Eine erste Grobschätzung für ein Korpus ergab damit eine Größe von
24.570 x 75 MB = 1.818,18 GB
mithin fast 2 Terabyte. Ein solches Korpus ist pragmatisch kaum zu handhaben. Aus diesen pragmatischen Gründen kann unser Korpus also kein vollständiges sein; stattdessen haben wir uns für ein tendenziell balanciertes Korpus entschieden.
Dieses Korpus konzentriert sich dabei
auf zwei renommierte Zeitungen, nämlich die Vossische Zeitung und die Berliner Morgenpost,
wobei wir jeweils nur eine Ausgabe pro Tag und Zeitung nehmen, also im Falle von Morgen- und Abendausgabe eine von beiden auswählen, und
uns auf den Zeitraum 1. Januar 1918 bis 31.12.1919 beschränken, also maximal 2 x 2 x 365 = 1.460 Ausgaben umfassen
Das Korpus soll ausgehend von den über ZEFYS verfügbaren PDF-Dateien aufgebaut werden. Am Ende des weiter unten genauer erläuterten Korpusaufbau-Prozesses stand damit schließlich ein Korpus, das sich mit folgenden Metadaten beschreiben lässt:
DC.title: “Zeitungskorpus zur Spanischen Grippe in Berlin, 1918/1919”
DC.description: “Sammlung sämtlicher verfügbarer Morgenausgaben der beiden Berliner Zeitungen “Vossische” und “Berliner Morgenpost aus den Jahren 1918 und 1919”
DC.creator: “Henny Sluyter-Gäthje, Daniil Skorinkin, Peer Trilcke für QUADRIGA. Berlin-Brandenburgische Datenkompetenzzentrum für Digital Humanities und Verwaltungswissenschaft”
DC.publisher: “”ZEitungsinFormationssYStem der Staatsbibliothek zu Berlin””
DC.date: “2024-06-01”
DC.format: “PDF”
DC.language: “Deutsch”
DC.subject: “Geschichte, Medienwissenschaft”
DC.coverage: “1918-01-01 bis 1919-12-31, Berlin”
DC.identifier:: “QUADRIGA_FS-Text-01_Data01_Corpus-Table”
2. Elemente des Korpus#
Mit dem eben ausgeführten Korpuskonzept sind auch die Elemente des Korpus definiert. Wir entscheiden uns für ein basales Metadatenschema, das folgende Felder umfasst:
ID:
DC.identifier
Name der Zeitung:
DC.publisher
Datum:
DC.date
URL mit Herkunft der Datei:
DC.source
Navigiert man im ZEFYS-Portal, wird schnell die Struktur von deren Datenhaltung ersichtlich, die sich für die semi-automatische Erstellung einer die Korpus-Elemente beschreibenden Metadaten-Tabelle nutzen lässt.
Unter https://zefys.staatsbibliothek-berlin.de/list/title/zdb/27112366/-/1918/#jan findet man z.B. eine Übersicht für den Monat Januar 1918.
Ruft man die Ausgabe vom 1. Januar 1918 auf, gelangt man zur Ansicht in einem Viewer: https://dfg-viewer.de/show/?set%5Bmets%5D=https://content.staatsbibliothek-berlin.de/zefys/SNP27112366-19180101-0-0-0-0.xml
Dort kann man über ein Klick in der oberen Menüleiste auch das gesamte PDF über einen API-Call zum Image Server der Staatsbibliothek aufrufen. Die dafür verwendete URL lautet https://content.staatsbibliothek-berlin.de/zefys/SNP27112366-19180101-0-0-0-0.pdf
Wie Stichproben zeigen, werden die Links des ZEFYS-Portals erfreulich systematisch gebildet. Sie setzen sich zusammen aus
https://content.staatsbibliothek-berlin.de/zefys/
– Angabe des Image-Servers und dem Endpunkt für ZEFYSSNP27112366
– einer Zeichenkette mit der ID der Zeitung19180101
– einer Zeichenkette für das Datum0-0-0-0
– einer Zeichenkette, die die Ausgabe benennt; weitere Ausgaben weisen die Zeichenkette1-0-0-0
etc. auf. ZEFYS vergibt in der Regel0-0-0-0
für die Morgenausgabe. Wir nehmen stehts die0-0-0-0
-Datei.
Die Analyse der ZEFYS API macht es möglich, unsere Metadaten-Tabelle semi-automatisch etwa mit Excel oder Open Office zu befüllen. Ausgehend vom
Wissen über die ID der Zeitung (
SNP27112366
für die “Vossin” undSNP2719372X
für die “Berliner Morgenpost”),unserer Festlegung des Zeitraums, also Daten von
19180101
bis19191231
und der Kenntnis der anderen Link-Bestandteile
können wir die URLs bauen und parallel die anderen Datenfelder befüllen. Die so entstehende Tabelle sieht folgendermaßen aus:
Die vollständige CSV-Datei kann hier heruntergeladen werden.
3. Sammlung der Elemente#
Die CSV-Datei, die sämtliche Elemente Korpus aufführt, listet auch jeweils einen Link zur PDF-Datei des Korpus. Dieser Link hat stets die Form:
https://content.staatsbibliothek-berlin.de/zefys/SNP2719372X-19180101-0-0-0-0.pdf
Ruft man den Link etwa im Browser auf, wird die PDF angezeigt oder heruntergeladen. Auf diese Weise ließen sich sukzessive, Klick für Klick, sämtliche Elemente des Korpus sammeln. Dieser Prozess kann dabei automatisiert werden.
Dafür erstellen wir aus der CSV-Datei zunächst eine einfache Link-Liste mit allen Links und speichern diese als TXT-Datei, der wir in unserem Fall den Dateinamen “QUADRIGA_FS-Text-01_Data01_Link-List.txt” geben. Diese Datei lässt sich hier herunterladen.
Sofern Sie mit der PowerShell (Windows) oder dem Terminal Ihres Computers umgehen können, können Sie nun Folgendes machen: Legen Sie Link-Liste in einem Ordner ab und navigieren Sie in der PowerShell/im Terminal in diesen Ordner.
Mac-Nutzer-innen führen nun folgenden Befehl aus:
xargs -n 1 curl -O < QUADRIGA_FS-Text-01_Data01_Link-List.txt
Windows-Nutzer:innen führen in der PowerShell folgenden Befehl aus
Get-Content QUADRIGA_FS-Text-01_Data01_Link-List.txt | ForEach-Object {
Invoke-WebRequest -Uri $_ -OutFile (Split-Path $_ -Leaf)
}
Es startet ein Download, der – sofern er komplett durchläuft - am Ende 1.328 Dateien im Umfang von 104,7 GB einsammelt.
Dies ist unser Forschungskorpus 🚀