Einführung

Einführung#

Groblernziel dieses Kapitels

Sie können Schritte zur Erstellung eines Forschungskorpus aus Bilddaten mittels Optical Character Recognition (OCR) aufzählen und die Qualität der Datensammlung anhand eines Samples bewerten.

Zu diesem Kapitel#

Nach dem vorherigen Kapitel haben wir also ein Korpus als Sammlung gescannter Bilder. Ein Korpus in dieser Form ist jedoch noch nicht maschinenlesbar und kann nicht direkt verarbeitet werden. In diesem Kapitel lernen wir, wie man mit OCR Bilder in Text umwandelt.

../_images/flow-chart_ocr.jpeg — Fig. 6 Flussdiagramm der Fallstudie. Wir befinden uns im dritten Arbeitspaket.#

Zunächst werden wir lernen, was OCR ist, warum wir es brauchen und wie es funktioniert. Außerdem werden wir einen Überblick über einige OCR-Tools geben.

Anschließend werden wir OCR in Python mit PyTesseract durchführen, einem kostenlosen und quelloffenen OCR-Tool.

Schließlich werden wir die Metriken kennenlernen, die zur Messung der OCR-Qualität verwendet werden, und Qualitätsmessungen durchführen.

Einführung

Contents

Einführung#

Zu diesem Kapitel#