🏆Selbsttest: Wissen und Praxis#
Hinweis
Diese Übungsaufgaben dienen Ihrer Selbsteinschätzung und helfen Ihnen, das im Kapitel Gelernte zu reflektieren.
Sie können die Fragen in beliebiger Reihenfolge beantworten und auch mehrfach versuchen.
So funktioniert es:
Wählen Sie bei jeder Frage die Antwort(en), die Sie für richtig halten
Lesen Sie das Feedback zu den einzelnen Antwortoptionen sorgfältig durch
Die Erklärungen helfen Ihnen, Ihr Verständnis zu vertiefen – auch bei korrekten Antworten
Es erfolgt keine Bewertung oder Speicherung Ihrer Ergebnisse. Nutzen Sie dieses Assessment, um Wissenslücken zu identifizieren und gegebenenfalls die entsprechenden Abschnitte des Kapitels noch einmal zu bearbeiten.
Geschätzte Zeit: 1h 10min
Viel Erfolg!
Frage 1#
(Wählen Sie alle zutreffenden Antworten aus)
Frage 2#
Analysieren Sie die folgenden Aussagen zur OCR-Qualitätskontrolle.
Frage 3#
Frage 4#
(Wählen Sie alle zutreffenden Antworten aus)
Frage 4(a)#
Frage 4(b)#
Frage 4(c)#
Frage 4(d)#
Frage 5#
(Wählen Sie alle zutreffenden Antworten aus)
Frage 6#
Frage 7#
Identifizieren Sie mögliche Probleme in den folgenden Aussagen:
Frage 8#
(Wählen Sie alle zutreffenden Antworten aus)
Frage 9#
Analysieren Sie die Bedeutung der verschiedenen Metriken in folgenden Szenarien.
Frage 9(a)#
Szenario 1: Digitalisierung historischer Zeitungen für wissenschaftliche Forschung
Frage 9(b)#
Szenario 2: Automatische Erfassung von Formulardaten
Frage 10#
Erklären Sie die Beziehungen zwischen den OCR-Qualitätsmetriken.
Frage 10(a)#
Trade-off zwischen Präzision und Recall
Lösungen
Wichtig zu verstehen:
Verbesserung einer Metrik kann andere verschlechtern
Optimierung für Präzision kann Recall reduzieren
Fokus auf Recall kann Präzision verringern
F1-Score hilft bei Ausgleich
Beispiel: “Strengere Erkennungsregeln erhöhen Präzision, können aber Recall senken.”
Frage 10(b)#
Rolle des F1-Scores
Lösungen
Der F1-Score:
Kombiniert beide Metriken ausgewogen
Ermöglicht einzelne Bewertungszahl
Hilft bei Systemvergleichen
Berücksichtigt beide Aspekte der Qualität
Frage 11#
(Wählen Sie alle zutreffenden Antworten aus)
Frage 11(a)#
Frage 11(b)#
Frage 11(c)#
Frage 11(d)#
Frage 12#
Frage 13#
Analysieren Sie die folgenden OCR-Qualitätswerte aus dem Beispiel:
Precision: 0.778
Recall: 0.7932
F1-score: 0.7855
Frage 13(a)#
Was bedeutet die Precision von 0.778 in diesem Kontext?
Lösungen
77.8% der vom OCR-System erkannten Zeichen sind korrekt.
Begründung:
Precision misst den Anteil korrekter Erkennungen
Wert von 0.778 entspricht 77.8%
Zeigt moderate bis gute Erkennungsgenauigkeit
Typisch für historische Frakturschrift
Frage 13(b)#
Warum ist der Recall (0.7932) höher als die Precision?
Lösungen
Das System erkennt mehr vorhandene Zeichen, macht dabei aber auch mehr Fehler.
Begründung:
Höherer Recall bedeutet bessere Vollständigkeit
Kompromiss zwischen Genauigkeit und Vollständigkeit
Typisches Muster bei historischen Dokumenten
Balance durch F1-Score (0.7855) ersichtlich
Frage 14#
Bewerten Sie die Eignung der gemessenen OCR-Qualität für verschiedene Anwendungsfälle.
Frage 14(a)#
Fall 1: Volltextsuche in digitalisierten Zeitungen
Lösungen
Bedingt geeignet, weil:
Recall von 0.79 ermöglicht Auffinden der meisten Begriffe
Precision von 0.78 bedeutet moderate Fehlerrate
F1-Score zeigt akzeptable Gesamtqualität
Suchfunktionen tolerieren gewisse Fehler
Empfehlung:
Einsatz von unscharfen Suche (Fuzzy Search), in der die Daten nicht genau mit dem Suchbegriff übereinstimmen müssen
Berücksichtigung häufiger OCR-Fehler
Mögliche manuelle Nachkorrektur wichtiger Passagen
Frage 14(b)#
Fall 2: Exakte Texttranskription für Edition
Lösungen
Nicht ausreichend, weil:
Precision unter 80% zu viele Fehler bedeutet
Recall nicht vollständig genug
Editorische Arbeit erfordert höhere Genauigkeit
Manuelle Korrektur notwendig
Empfehlung:
Verwendung als Vorverarbeitung
Systematische manuelle Korrektur
Dokumentation der OCR-Qualität
Mehrfache Qualitätskontrolle