🏆Selbsttest: Wissen und Praxis#
Hinweis
Diese Übungsaufgaben dienen Ihrer Selbsteinschätzung und helfen Ihnen, das im Kapitel Gelernte zu reflektieren.
Sie können die Fragen in beliebiger Reihenfolge beantworten und auch mehrfach versuchen.
So funktioniert es:
Wählen Sie bei jeder Frage die Antwort(en), die Sie für richtig halten
Lesen Sie das Feedback zu den einzelnen Antwortoptionen sorgfältig durch
Die Erklärungen helfen Ihnen, Ihr Verständnis zu vertiefen – auch bei korrekten Antworten
Es erfolgt keine Bewertung oder Speicherung Ihrer Ergebnisse. Nutzen Sie dieses Assessment, um Wissenslücken zu identifizieren und gegebenenfalls die entsprechenden Abschnitte des Kapitels noch einmal zu bearbeiten.
Geschätzte Zeit: 1h
Viel Erfolg!
Frage 1#
(Wählen Sie alle zutreffenden Antworten aus)
Frage 2#
Welche Aussage trifft auf das jeweilige Textformat zu? Wählen Sie für jede Aussage das passende Format.
Frage 2(a)#
Frage 2(b)#
Frage 3#
Szenario: Ein Forschungsprojekt möchte ein historisches Zeitungskorpus erstellen, das:
für automatische Textanalysen nutzbar ist
die ursprüngliche Seitengestaltung dokumentiert
langfristig archiviert werden soll
Frage: Welches Format oder Kombination von Formaten würden Sie empfehlen?
Lösungen
Musterlösung: XML oder Kombination aus Bilddigitalisaten (PDF) und Plain Text
Begründung: XML:
kann sowohl Text als auch Informationen zum originalen Layout in spezialisierten Tags speichern
kann Text und Bildinformationen verknüpfen
ermöglicht automatische Textanalysen
eignet sich zur Langzeitarchivierung
Nachteil: Die Verarbeitung ist komplexer als die von Plain Text
Bilddigitalisate (PDF):
Bewahren das originale Layout
Dienen als Referenz
Eignen sich für die Langzeitarchivierung
Nachteil: automatische Prozessierung und Verknüpfung zu Plain Text ist nicht möglich
Plain Text (nach OCR):
Ermöglicht automatische Textanalysen
Einfach zu verarbeiten
Geringer Speicherbedarf
Alternative Ansätze:
CSV ist nicht geeignet für Volltext
Nur Bilddigitalisate würden Analysen erschweren
Nur Plain Text dokumentiert die ursprüngliche Seitengestaltung nicht
Frage 4#
(Wählen Sie alle zutreffenden Antworten aus)
Frage 4(a)#
Frage 4(b)#
Frage 4(c)#
Frage 4(d)#
Frage 4(e)#
Frage 5#
(Wählen Sie alle zutreffenden Antworten aus)
Frage 6#
Frage 6(a)#
Frage 6(b)#
Frage 6(c)#
Frage 7#
Lösungen
Für Einzeldokumente sind stattdessen relevant:
Individuelle Eigenschaften
Spezifische Publikationsdaten
Dokumentspezifische Merkmale
Frage 8#
Frage 8(a)#
Frage 8(b)#
Frage 8(c)#
Frage 8(d)#
Frage 9#
Frage 10#
Analysieren Sie den folgenden Ausschnitt aus einem Korpusaufbau-Konzept:
“Für das Zeitungskorpus zur Spanischen Grippe werden Ausgaben der Berliner Morgenpost und der Vossischen Zeitung aus den Jahren 1918-1919 gesammelt. Die Zeitungen sind über ZEFYS als PDF verfügbar. Aufgrund der Datenmenge (ca. 2 TB) wird ein balanciertes Korpus mit repräsentativen Stichproben erstellt.”
Bewerten Sie die folgenden Aspekte:
Quellenauswahl
Technische Umsetzbarkeit
Praktische Einschränkungen
Lösungsansatz
Lösungen
Musterlösung:
Quellenauswahl:
Zwei relevante Berliner Zeitungen
Zeitraum entspricht Pandemieverlauf
Digitale Verfügbarkeit gegeben
Technische Umsetzbarkeit:
Zugang über ZEFYS-Portal möglich
PDF-Format erfordert OCR
Systematischer Download möglich
Praktische Einschränkungen:
Sehr große Datenmenge (2 TB)
Hoher Speicherbedarf
Aufwendige Verarbeitung
Lösungsansatz:
Balanciertes Korpus als Alternative
Repräsentative Stichproben
Praktikable Größe bei wissenschaftlicher Qualität