OCR als Methode, um Text maschinenlesbar zu machen

OCR als Methode, um Text maschinenlesbar zu machen#

Feinlernziel(e) dieses Kapitels

Sie können den Prozess der Optical Character Recognition (OCR) für die Korpuserstellung beschreiben und Tools zur Durchführung der OCR aufzählen.

Optical Character Recognition (OCR) ist eine Technologie, die es ermöglicht, gedruckten oder handgeschriebenen Text in Dokumenten oder Bildern in maschinenlesbaren Text umzuwandeln. OCR-Software analysiert das Layout des Dokuments, erkennt die Formen der Buchstaben und Zahlen und wandelt diese in digitale Texte um, die weiterverarbeitet werden können.

Warum benutzen wir OCR?#

Digitalisierung von Dokumenten: OCR ermöglicht die Umwandlung von physischen Dokumenten in digitale Formate, wodurch Speicherplatz gespart und der Zugriff auf Informationen erleichtert wird.
Suchbarkeit: Texte in Bildern oder gescannten Dokumenten können nach der OCR-Verarbeitung durchsucht werden. Dies erleichtert das Auffinden von Informationen in großen Dokumentensammlungen.
Bearbeitbarkeit: Mit OCR umgewandelte Texte können bearbeitet und weiterverarbeitet werden. Dies ist besonders nützlich für die Aktualisierung oder Korrektur von Dokumenten.
Automatisierung: OCR ermöglicht die Automatisierung vieler Prozesse, wie z.B. die Verarbeitung von Formularen, Rechnungen oder anderen Dokumenten in Unternehmen. Dies spart Zeit und reduziert menschliche Fehler.
Barrierefreiheit: OCR kann dabei helfen, gedruckte Texte für sehbehinderte Menschen zugänglich zu machen, indem die Texte in eine digitale Form gebracht und dann mittels Screenreadern vorgelesen werden.
Archivierung und Langzeitlagerung: Durch die Digitalisierung und OCR können wichtige Dokumente sicher archiviert und langfristig gespeichert werden, ohne dass sie an Qualität verlieren.

Welche Software verwenden wir um OCR auszuführen#

Die OCR-Technologie wird zunehmend in grundlegende Softwareanwendungen, wie z. B. verschiedene PDF-Viewer-Programme, integriert. Tools wie MacOS ‘Preview’ oder Adobe Acrobat verfügen über integrierte OCR-Funktionen. Diese sind jedoch nicht für die Massenverarbeitung von Korpora geeignet. Daher benötigt man nach wie vor spezialisierte OCR-Software oder Programmpakete, um große Mengen an Bildern/PDFs in maschinenlesbare Korpora zu verarbeiten.

Spezialisierte OCR-Tools#

Das Feld der OCR-Tools entwickelt sich rasant (zusammen mit allen anderen Bereichen der Textverarbeitung), sodass es immer neue Tools gibt, die die alten herausfordern. Aber Stand 2024 waren die bekannten Produkte:

FineReader (Closed Source, kommerziell)
Tesseract (Open Source)
OCR4all (Open Source)
Kraken & e-Scriptorium (Open Source)
EasyOCR (Open Source)

OCR in Python mit PyTesseract#

In diesem Tutorial werden wir OCR mit Tesseract durchführen, das offen und kostenlos ist. Wir verwenden das Python-Paket PyTesseract.