OCRopus – Hoffnungsträger der Frakturschrifterkennung

Die optische Zeichenerkennung (engl. Optical Character Recognition, abgekürzt OCR) von Frakturschrift führte bislang weitestgehend zu unbefriedigenden Ergebnissen. Programme wie z. B. der kommerzielle Recognition Server 4 von ABBYY oder die freie Software Tesseract von Google bieten zwar durchaus eine Frakturerkennung an, jedoch weisen die Resultate der OCR noch hohe Fehlerquoten auf. OCRopus (auch ocropy) zeigt bei entsprechenden vorgehenden Training deutlich bessere Erkennungsquoten1 (siehe Abbildung 1), daher lohnt es sich einen näheren Blick auf die Software zu werfen.

Erkennungsquoten
Abbildung 1: Fehlerquoten zu gegebenen Trainingsstufen; training: zum Trainieren genutztes Material; testing: unbekanntes Material (aus dem Lexikon „Grosses Universal Lexikon“ von Johann Heinrich Zedler)

OCRopus ist eine modular aufgebautes Kommandozeilenprogramm auf Basis eines neuronalen long short-term memory Netzes. Es ist in C++ und Python geschrieben und enthält u. a. Module zur Binarisierung (Erzeugung einer Ras­tergrafik), Segmentierung (Dokumentaufspaltung in Zeilen), Training neuer Zeichen und natürlich zu der Erkennung von Dokumenten. Ein bedeutender Vorteil dabei ist, dass jedes Modul eine Reihe von nachvollziehbaren Einstellungsmöglichkeiten hat, um auf die individuellen Herausforderungen jedes Dokumentes einzugehen. Zusätzlich besteht die Möglichkeit OCRopus auf die Erkennung einer bestimmten Schriftart, bzw. eines Zeichensatzes zu trainieren. Somit lassen sich individuell angefertigte Module verwenden, was die Erkennungsquoten enorm steigern kann. Die Benutzung eines Kommandozeilenprogramms setzt aber auch eine gewisse Kenntnis in der Bedienung einer Shell voraus, die für viele potenzielle Nutzer eine erste Einstiegshürde darstellt. In den Beiträgen zur Installation bzw. Benutzung von OCRopus wird versucht diese Hürden abzutragen.

In der Praxis besteht der Arbeitsablauf von OCRopus in der Vorbereitung und Erkennung der Dokumente, der Prüfung des Ergebnisses und (sollte dieses zufriedenstellend sein) der Transformation der erkannten Zeilen in ein Textdokument. Weist das Ergebnis zu viele Fehler auf, schließt sich ein Trainingsprozess an (siehe Abbildung 2).

Arbeitsablauf
Abbildung 2: Arbeitsablauf einer Texterkennung mit OCRopus. Dargestellt sind die Arbeitsschritte mit den dazugehörigen Modulen.

Die hohen Erkennungsraten dürfen jedoch nicht dazu verleiten, in allzu großen Jubel auszubrechen. Das Vorbereiten (Preprocessing) der Dokumente und Nachbereiten (Postprocessing) der Ergebnisse, sowie das Training kann einige Zeit in Anspruch nehmen. Die Hoffnung, ein komplettes Buch innerhalb von wenigen Minuten in einen Volltext zu verwandeln, muss derzeit leider enttäuscht werden. OCRopus kann den Prozess der Volltexterkennung zwar erleichtern, von einer kompletten Automatisierung vom Digitalisat zum Volltext ist man jedoch noch ein Stück entfernt.

  1. Springmann (2015): Ocrocis, S. 3; Vanderkam (2015a): Extracting text from an image using Ocropus; Zedlitz (2016a): OCRopus []

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*