Einführung#
Nach dem vorherigen Kapitel haben wir also ein Korpus als Sammlung gescannter Bilder. Ein Korpus in dieser Form ist jedoch noch nicht maschinenlesbar und kann nicht direkt verarbeitet werden. In diesem Kapitel lernen wir, wie man mit OCR Bilder in Text umwandelt.
Zunächst werden wir lernen, was OCR ist, warum wir es brauchen und wie es funktioniert. Außerdem werden wir einen Überblick über einige OCR-Tools geben.
Anschließend werden wir OCR in Python mit PyTesseract durchführen, einem kostenlosen und quelloffenen OCR-Tool.
Schließlich werden wir die Metriken kennenlernen, die zur Messung der OCR-Qualität verwendet werden, und Qualitätsmessungen durchführen.