🏆Selbsttest: Wissen und Praxis#
Hinweis
Diese Übungsaufgaben dienen Ihrer Selbsteinschätzung und helfen Ihnen, das im Kapitel Gelernte zu reflektieren.
Sie können die Fragen in beliebiger Reihenfolge beantworten und auch mehrfach versuchen.
So funktioniert es:
Wählen Sie bei jeder Frage die Antwort(en), die Sie für richtig halten
Lesen Sie das Feedback zu den einzelnen Antwortoptionen sorgfältig durch
Die Erklärungen helfen Ihnen, Ihr Verständnis zu vertiefen – auch bei korrekten Antworten
Es erfolgt keine Bewertung oder Speicherung Ihrer Ergebnisse. Nutzen Sie dieses Assessment, um Wissenslücken zu identifizieren und gegebenenfalls die entsprechenden Abschnitte des Kapitels noch einmal zu bearbeiten.
Geschätzte Zeit: 1h 15min
Viel Erfolg!
Frage 1#
Frage 2#
Frage 3#
Frage 4#
Ein Text hat eine Länge von 500 Wörtern und enthält 15 Wörter aus dem semantischen Feld “Grippe”. Ein zweiter Text hat eine Länge von 800 Wörtern und enthält 20 Wörter aus demselben semantischen Feld.
Frage 5#
Betrachten Sie folgende drei Texte und ihre Häufigkeitswerte:
Text A: 30 Grippewörter bei 600 Wörtern Gesamtlänge
Text B: 25 Grippewörter bei 400 Wörtern Gesamtlänge
Text C: 20 Grippewörter bei 500 Wörtern Gesamtlänge
Frage 6#
Frage 7#
Analysieren Sie das folgende Szenario:
Ein Forschungsteam untersucht die mediale Berichterstattung über COVID-19 in verschiedenen deutschen Zeitungen im Jahr 2020. Sie haben ein semantisches Feld mit Begriffen wie “Coronavirus”, “COVID-19”, “Pandemie”, “Lockdown” usw. erstellt.
Beschreiben Sie, wie Sie die relative Häufigkeit dieser Begriffe für einen monatlichen Vergleich berechnen würden.
Erläutern Sie, warum relative statt absolute Häufigkeiten für den Vergleich verschiedener Zeitungen wichtig sind.
Erklären Sie, wie Sie die KWIC-Darstellung nutzen könnten, um das semantische Feld zu verfeinern.
Diskutieren Sie, welche Einsichten ein Liniendiagramm der relativen Häufigkeiten über die Zeit liefern könnte.
Lösung
Beispiellösung zur Selbstbewertung:
1. Berechnung der relativen Häufigkeit für monatlichen Vergleich:
Für jeden Monat alle Artikel der jeweiligen Zeitung zusammenfassen
Absolute Häufigkeit: Zählen aller Vorkommen von Wörtern aus dem semantischen Feld “COVID-19” in den Artikeln des Monats
Gesamtwortzahl: Zählen aller Wörter in den Artikeln des Monats
Relative Häufigkeit = Absolute Häufigkeit / Gesamtwortzahl
Alternativ könnte man auch die Summe der absoluten Häufigkeiten durch die Summe der Textlängen teilen
2. Bedeutung relativer Häufigkeiten für den Zeitungsvergleich:
Zeitungen haben unterschiedliche Formate, Umfänge und Erscheinungsweisen
Absolute Häufigkeiten wären stark von den Gesamttextlängen abhängig
Relative Häufigkeiten ermöglichen fairen Vergleich unabhängig von Textlänge
Beispiel: Eine Zeitung mit 50 COVID-Begriffen in 1000 Wörtern (5%) vs. eine Zeitung mit 100 COVID-Begriffen in 4000 Wörtern (2,5%)
3. Nutzung der KWIC-Darstellung zur Verfeinerung des semantischen Feldes:
Analyse des Kontexts einzelner Begriffe, um deren tatsächliche Verwendung zu prüfen
Identifikation mehrdeutiger Begriffe (z.B. “Corona” könnte sich auch auf das Bier beziehen)
Entdeckung weiterer relevanter Begriffe im Kontext der vorhandenen Suchbegriffe
Überprüfung, ob Begriffe tatsächlich im Zusammenhang mit COVID-19 verwendet werden
Iterative Anpassung des semantischen Feldes: Entfernen irrelevanter und Hinzufügen neuer Begriffe
4. Einsichten aus einem Liniendiagramm der relativen Häufigkeiten:
Visualisierung des zeitlichen Verlaufs der medialen Aufmerksamkeit für COVID-19
Identifikation von Höhepunkten der Berichterstattung und Korrelation mit wichtigen Ereignissen
Vergleich zwischen “Wellen” der Pandemie und “Wellen” der Berichterstattung
Erkennen von Trends wie Ermüdungserscheinungen in der Berichterstattung
Unterschiede zwischen verschiedenen Zeitungen im zeitlichen Verlauf ihrer Berichterstattung
Frage 8#
(Wählen Sie alle zutreffenden Antworten aus)
Frage 9#
(Wählen Sie alle zutreffenden Antworten aus)
Frage 10#
Frage 11#
Frage 12#
Frage 13#
Frage 14#
Frage 15#
Analysieren Sie folgendes Szenario:
Sie planen eine diachrone Frequenzanalyse zu Berichten über eine historische Naturkatastrophe in deutschen Zeitungen. Sie haben bereits ein Korpus mit annotierten Texten und Metadaten sowie ein semantisches Feld mit relevanten Begriffen erstellt.
Beschreiben Sie die notwendigen Schritte zur Durchführung der Frequenzanalyse.
Erläutern Sie, wann und warum Sie absolute bzw. relative Häufigkeiten verwenden würden.
Welche Zeiteinheiten würden Sie für die Aggregation wählen und warum?
Wie würden Sie die Ergebnisse visualisieren und interpretieren?
Lösung
Beispiellösung zur Selbstbewertung:
1. Notwendige Schritte zur Frequenzanalyse:
Einlesen des annotierten Korpus (CSV-Dateien mit Token und Lemmata)
Einlesen der Metadaten mit Datumsinformationen
Einlesen des semantischen Feldes zur Naturkatastrophe
Zusammenführen der Datumsinformationen mit den Annotationen
Zusammenführen aller Texte in eine gemeinsame Datenstruktur
Filterung der Lemmata nach dem semantischen Feld
Gruppierung der Vorkommen nach Zeiteinheiten
Berechnung der absoluten und relativen Häufigkeiten
Visualisierung der Ergebnisse in einem Liniendiagramm
2. Verwendung von absoluten vs. relativen Häufigkeiten:
Absolute Häufigkeiten können verwendet werden, wenn die tatsächlichen Anzahl der Erwähnungen von Interesse ist, z.B. um die reine Medienpräsenz zu quantifizieren
Relative Häufigkeiten können für den Vergleich zwischen Zeitabschnitten mit unterschiedlicher Textmenge verwendet werden
Bei der Analyse über einen längeren Zeitraum mit schwankender Verfügbarkeit von Zeitungsausgaben sind relative Häufigkeiten unverzichtbar
Idealerweise werden beide Werte berechnet, da dies die Möglichkeit bietet, zwischen beiden Darstellungen zu wechseln
3. Wahl der Zeiteinheiten:
Tägliche Aggregation: für detaillierte Analysen, besonders bei plötzlichen Ereignissen wie Naturkatastrophen
Wöchentliche Aggregation: für mittelfristige Trends, reduziert tägliche Schwankungen
Monatliche Aggregation: für langfristige Trends über mehrere Jahre
Bei einer Naturkatastrophe könnten alle drei Ebenen angeboten werden, aber der Fokus sollte auf der täglichen und wöchentlichen Aggregation legen, da die mediale Aufmerksamkeit für solche Ereignisse typischerweise schnell ansteigt und dann allmählich abnimmt
4. Visualisierung und Interpretation:
Interaktives Liniendiagramm mit der Möglichkeit, zwischen Zeiteinheiten und absoluten/relativen Häufigkeiten zu wechseln
Markierung wichtiger Ereignisse im Zusammenhang mit der Katastrophe im Diagramm
Vergleich der medialen Aufmerksamkeitskurve mit Daten zur tatsächlichen Intensität der Katastrophe
Interpretation potenzieller Diskrepanzen zwischen medialer Aufmerksamkeit und tatsächlichem Geschehen
Analyse von Faktoren, die die mediale Aufmerksamkeit beeinflussen könnten (andere wichtige Ereignisse, politische Situation, etc.)
Bei Naturkatastrophen wird ein schneller Anstieg der Berichterstattung unmittelbar nach dem Ereignis erwartet und dann ein allmählicher Rückgang, möglicherweise mit kleineren Spitzen bei Folgeberichten oder Jahrestagen
Frage 16#
Frage 17#
Frage 18#
Frage 19#
Frage 20#
Frage 21#
Frage 22#
Stellen Sie sich vor, Sie möchten eine KWIC-Analyse zum Thema “Schutzmaßnahmen gegen die Spanische Grippe” durchführen.
Welche spezifischen Wörter würden Sie für Ihre KWIC-Suche auswählen und warum?
Welchen Kontextumfang (Anzahl der Wörter links und rechts vom Suchwort) würden Sie wählen und warum?
Beschreiben Sie, wie Sie die KWIC-Ergebnisse nutzen würden, um Ihr Verständnis des Themas zu vertiefen.
Wie würden Sie die KWIC-Analyse mit der quantitativen Frequenzanalyse kombinieren?
Lösung
Beispiellösung zur Selbstbewertung:
1. Auswahl der Suchwörter:
Ich würde folgende Wörter wählen: “Schutzmaske”, “Desinfektion”, “Quarantäne”, “Isolierung”, “Schutzmaßnahme”, “Seuchenschutz”
Diese Wörter beziehen sich direkt auf Schutzmaßnahmen gegen die Spanische Grippe
Ich würde auch verwandte Begriffe wie “Schließung” (von Schulen, öffentlichen Einrichtungen) und “Verbot” (von Versammlungen) hinzufügen
Die Auswahl basiert auf dem im Notebook gezeigten semantischen Feld und wurde um weitere schutzmaßnahmenbezogene Begriffe ergänzt
2. Wahl des Kontextumfangs:
Ich würde einen Kontextumfang von 7-10 Wörtern wählen
Dies bietet mehr Kontext als die 5 Wörter im Beispiel, was bei komplexeren Themen wie Schutzmaßnahmen hilfreich sein kann
Ein größerer Kontext ermöglicht es, nicht nur die unmittelbare Umgebung des Suchbegriffs zu sehen, sondern auch breitere syntaktische und semantische Zusammenhänge zu erfassen
Bei zu großem Kontext könnte die Übersichtlichkeit leiden, daher ist eine Begrenzung auf 7-10 Wörter sinnvoll
3. Nutzung der KWIC-Ergebnisse:
Identifikation der konkreten Schutzmaßnahmen, die während der Pandemie ergriffen wurden
Analyse der Bewertung dieser Maßnahmen (positiv, negativ, neutral) im Kontext
Untersuchung, ob bestimmte Maßnahmen mit bestimmten Akteuren (Behörden, Ärzte, Bürger) assoziiert werden
Erkennung von zeitlichen Mustern: Wann wurden welche Maßnahmen thematisiert?
Vergleich der Darstellung verschiedener Maßnahmen in unterschiedlichen Zeitungen
4. Kombination mit quantitativer Frequenzanalyse:
Zunächst Identifikation von zeitlichen Mustern durch Frequenzanalyse (wann wurden Schutzmaßnahmen besonders häufig thematisiert?)
Gezielte KWIC-Analyse für diese Zeiträume, um qualitative Einblicke zu gewinnen
Überprüfung, ob Häufigkeitsspitzen mit bestimmten Ereignissen oder Maßnahmen korrelieren
Nutzung der KWIC-Ergebnisse zur Verfeinerung des semantischen Feldes für weitere Frequenzanalysen
Kombinierte Darstellung von quantitativen Trends und exemplarischen KWIC-Auszügen in einer Forschungspräsentation