Ausblick: Die Auswirkung der LLM-Nachkorrektur auf die Suche nach Textspuren der Spanischen Grippe

Ausblick: Die Auswirkung der LLM-Nachkorrektur auf die Suche nach Textspuren der Spanischen Grippe #

Nachdem wir unsere Analyse abgeschlossen haben, kommen wir nun zurück zur Frage der LLM-Nachkorrektur. Was würde passieren, wenn wir unser Korpus mit LLMs nachkorrigieren würden? Wir haben es an einer Datei (SNP2719372X-19181012-0-0-0-0.pdf) getestet und die gesamte OCR-Datei über die GPT-4-API laufen lassen. Hier sind die beiden Segmente derselben Seite, die den Unterschied vor (links) und nach (rechts) der LLM-Nachkorrektur veranschaulichen:

llm_vs_original

Sehen wir uns nun an, ob sich dies auf die Anzahl der Grippe-bezogenen Wörter in dieser Datei auswirkt:

Definieren der Wortliste (erneut):#

grippe_list = ['Influenza',
'Grippe',
'Grippeepidemie',
'Grippewelle',
'Grippekranke',              
'Grippepandemie',
'Lungenentzündung',
'Krankheitswelle',
'Seuchenzug',
'Krankheitsausbruch',
'Fieberanfall',
'Schüttelfrost',
'Atemnot',
'Körpererschöpfung',
'Genesungszeit',
'Ansteckungsgefahr',
'Seuchenschutz',
'Desinfektionsmittel',
'Schutzmaske',
'Krankenstation',
'Isolationsstation',
'Sanitätsdienst',
'Krankheitsverlauf',
'Todesopfer',
'Krankheitssymptom',
'Erkrankungsfall',
'Lungeninfektion']

Lesen der Anmerkungen der beiden Dateien (Original und nachträglich korrigiert) #

import pandas as pd
original = pd.read_csv('../data/csv/SNP2719372X-19181012-0-0-0-0.csv')
post_llm = pd.read_csv('../data/csv/SNP2719372X-19181012-0-0-0-0_llm_postcorr.csv')

Zählen der Wörter der Liste für jede Datei #

def count_words(annotation, wordlist):
    result = annotation.query(f'Lemma.isin({wordlist})')
    return result.shape[0]
count_words(original, grippe_list)
13
count_words(post_llm, grippe_list)
16

LLM verbessert in diesem Fall also nicht nur das Erscheinungsbild der Texte, sondern hilft auch dabei, einige Erwähnungen von Grippe-bezogenen Wörtern wiederherzustellen.