🚀 Analyse 2: Keyword in Context (KWIC)

🚀 Analyse 2: Keyword in Context (KWIC)#

🔔 Feinlernziel(e) dieses Kapitels
Sie können die Darstellungsmethode Keywords in Context beschreiben, Wörter zur Anzeige auswählen und diese anzeigen lassen.

Hinweise zur Ausführung des Notebooks#

Dieses Notebook kann auf unterschiedlichen Levels erarbeitet werden (siehe Abschnitt “Technische Voraussetzungen”):

Book-Only Mode
Cloud Mode: Dafür auf 🚀 klicken und z.B. in Colab ausführen.
Local Mode: Dafür auf Herunterladen ↓ klicken und “.ipynb” wählen.

Übersicht#

Im Folgenden werden die annotierten Dateien (CSV-Format) analysiert. Unser Ziel ist es, den annotierten Korpus zu nutzen, um KWIC-Ausgaben zu erzeugen.

Dafür werden folgendene Schritte durchgeführt:

Einlesen des Korpus, der Metadaten und der Grippe-Wortliste
Extraktion und Darstellung der Wortkontexte durch KWIC

Informationen zum Ausführen des Notebooks – Zum Ausklappen klicken ⬇️

Voraussetzungen zur Ausführung des Jupyter Notebooks

Installieren der Bibliotheken
Pfad zu den Daten setzen
Laden der Daten (z.B. über den Command `wget` (s.u.))

Zum Testen: Ausführen der Zelle "load libraries" und der Sektion "Einlesen der Daten".
Alle Zellen, die mit 🚀 gekennzeichnet sind, werden nur bei der Ausführung des Noteboos in Colab / JupyterHub bzw. lokal ausgeführt.

1. Einlesen der Daten, Metadaten#

1.1 Einlesen des Korpus (CSV-Dateien)#

Informationen zum Ausführen des Notebooks – Zum Ausklappen klicken ⬇️

Zuerst wird der Ordner angelegt, in dem die CSV-Dateien gespeichert werden. Der Einfachheit halber wird die gleich Datenablagestruktur wie in dem GitHub Repository, in dem die Daten gespeichert sind, vorausgesetzt.
Danach werden alle CSV-Dateien im Korpus heruntergeladen und gespeichert. Dafür sind folgende Schritte nötig:

Es wird eine Liste erstellt, die die URLs zu den einzelnen CSV-Dateien beinhaltet.
Die Liste wird als txt-Datei gespeichert.
Alle Dateien aus der Liste werden heruntergeladen und in dem Ordner ../data/csv gespeichert.

Sollten die Dateien schon an einem anderen Ort vorhanden sein, können die Dateipfade zu den Ordnern angepasst werden.

Setzen des Pfads:

# set the path to csv files to be processed
csv_dir = Path(r"../data/csv")

# Create dictionary to save the corpus data (filenames and tables)
corpus_annotations = {}

# Iterate over csv files 
for file in csv_dir.iterdir():
    # check if the entry is a file, not a directory
    if file.is_file():
        # check if the file has the correct suffix csv
        if file.suffix == '.csv':
            # read the csv table to a data frame
            data = pd.read_csv(file) 
            # save the data frame to the dictionary, key=filename (without suffix), value=dataframe
            corpus_annotations[file.name] = data

1.2 Einlesen der Metadaten#

Informationen zum Ausführen des Notebooks – Zum Ausklappen klicken ⬇️

Zuerst wird der Ordner angelegt, in dem die Metadaten-Datei gespeichert wird. Wieder wird die gleich Datenablagestruktur wie in dem GitHub Repository vorausgesetzt.
Der Text wird aus GitHub heruntergeladen und in dem Ordner ../data/metadata/ abgespeichert.
Der Pfad kann in der Variable metadata_path angepasst werden. Die einzulesende Datei muss die Endung `.csv` haben.

# set path to metadata file
metadata_path = '../data/metadata/QUADRIGA_FS-Text-01_Data01_Corpus-Table.csv'

# read metadata file to pandas dataframe and set index
corpus_metadata = pd.read_csv(metadata_path, sep=';')
corpus_metadata = corpus_metadata.set_index('DC.identifier')

Kombinieren von tokenisierten Texten und deren Metadaten für KWIC-Suche#

def get_date_metadata(txtname, corpus_metadata):  
    date = corpus_metadata.loc[txtname, 'DC.date']
    date = str(date)
    year = date[:4]
    month = date[:7]
    day = date
    return year, month, day 

for filename, annotated_text in corpus_annotations.items():
    txtname = filename.replace('.csv', '')
    if txtname in corpus_metadata.index:
        year, month, day = get_date_metadata(txtname, corpus_metadata)
        annotated_text['month'] = month
        annotated_text['filename'] = filename
search_df = pd.concat(corpus_annotations.values())
search_df = search_df.reset_index()
search_df["Token"] = search_df["Token"].astype(str)
print(f'The KWIC-search will be over a corpus of {search_df.shape[0]} word occurences')

The KWIC-search will be over a corpus of 33192061 word occurences

1.3 Einlesen der Wortliste (Semantisches Feld “Grippe”)#

path_to_wordlist = Path("../data/wordlist/grippe.txt")
word_list = path_to_wordlist.read_text().split("\n")

Wie sieht die Wortliste aus?

word_list

['Influenza',
 'Grippe',
 'Grippeepidemie',
 'Grippewelle',
 'Grippekranke',
 'Grippepandemie',
 'Lungenentzündung',
 'Krankheitswelle',
 'Seuchenzug',
 'Krankheitsausbruch',
 'Fieberanfall',
 'Schüttelfrost',
 'Atemnot',
 'Körpererschöpfung',
 'Genesungszeit',
 'Ansteckungsgefahr',
 'Seuchenschutz',
 'Desinfektionsmittel',
 'Schutzmaske',
 'Krankenstation',
 'Isolationsstation',
 'Sanitätsdienst',
 'Krankheitsverlauf',
 'Todesopfer',
 'Krankheitssymptom',
 'Erkrankungsfall',
 'Lungeninfektion',
 '']

2. Extraktion und Darstellung der Wortkontexte durch KWIC#

Show code cell content Hide code cell content

class ContextViewer:
    
    def __init__(self, search_df):
        self.full_df = search_df
        print(f'Searching in a corpus of {self.full_df.shape[0]} word occurences')
        
    def show_kwic_output(self, search_terms, n_words):
        contexts_df = self.get_context_words(search_terms, n_words)
        
        # Convert DataFrame to ColumnDataSource
        source = ColumnDataSource(contexts_df)
                
        # Create Table Columns
        columns = [TableColumn(field=col, title=col) for col in contexts_df.columns]

        # Create DataTable
        data_table = DataTable(source=source, columns=columns)

        # Display DataTable
        output_notebook()  # Use this to render in Jupyter Notebook
        show(layout([data_table]))

    
    def get_context_words(self, search_terms, n_words):
        #search_terms = input('Insert a word to search, split by comma if more than one: ')
        if len(search_terms) == 0:
            search_terms = word_list
        if isinstance(search_terms, str):
            search_terms = search_terms.split(',')
        search_terms = [x.strip() for x in search_terms]
        indices = self.full_df.query(f'Lemma.isin({search_terms})').index
        #print(indices)
        left_contexts = []
        this_words = []
        right_contexts = []
        months = []
        for indice in indices:
            left = self.full_df.iloc[indice-n_words:indice-1, ]["Token"]
            leftс = left[~left.str.contains('\n')]
            right = self.full_df.iloc[indice+1:indice+n_words, ]["Token"]
            rightс = right[~right.str.contains('\n')]
            left_contexts.append(' '.join(leftс))
            right_contexts.append(' '.join(rightс))
            this_words.append(self.full_df.iloc[indice, ]["Token"])
            months.append(self.full_df.iloc[indice, ]["month"])
        newdf = pd.DataFrame()
        newdf['left_context'] = left_contexts
        newdf['word'] = this_words
        newdf['right_context'] = right_contexts
        newdf['month'] = months
        return newdf
        

kwic = ContextViewer(search_df)

Searching in a corpus of 33192061 word occurences

kwic.show_kwic_output(word_list, n_words=5)

Loading BokehJS ...

🚀 Analyse 2: Keyword in Context (KWIC)

Contents

🚀 Analyse 2: Keyword in Context (KWIC)#

Hinweise zur Ausführung des Notebooks#

Übersicht#

1. Einlesen der Daten, Metadaten#

1.1 Einlesen des Korpus (CSV-Dateien)#

1.2 Einlesen der Metadaten#

Kombinieren von tokenisierten Texten und deren Metadaten für KWIC-Suche#

1.3 Einlesen der Wortliste (Semantisches Feld “Grippe”)#

2. Extraktion und Darstellung der Wortkontexte durch KWIC#

Worteingabe für die Suche und KWIC-output (für Cloud Mode und Local Mode)#