Die Bedeutung des Preprocessing

Hürden in der Texterkennung
Initiale, Bilder und Spalten führen oft zu Fehlern bei der Erkennung und beim Textlauf.

Einer der bedeutendsten Schritte bei der Texterkennung ist die Vorbereitung des Materials, das sogenannte Preprocessing. Ziel des Preprocessing ist es, möglichst viele Hürden für die Texterkennung zu entfernen.

Die Texterkennung von unbereinigten Bilden liefert häufig schlechte Erkennungsraten aufgrund von kontrastarmen Eingangsbildern, zeilenweise Zeichensalat durch den Versuch Bilder und Initiale zu erkennen und zusammengeworfene Sätze, weil Spalten nicht aufgetrennt wurden.

Die OCR-Software OCRopus liefert zwei Module mit, um Bilder zu binarisieren (ocropus-nlbin) und in Zeilen zu segmentieren (ocropus-gpageseg). OCRopus bietet damit Lösungen, um den Kontrast zu erhöhen, Störungen zu entfernen, mit Spalten umzugehen und ganz allgemein den Textkorpus in passende Stücke zu zerlegen. Die Segmentierung in Zeilen ist dabei essentiell für die spätere Texterkennung.

Obwohl die beiden Module ganz passable Ergebnisse liefern, lassen die Texterkennungsraten durch den Einsatz der Bildbearbeitungssoftware Scantailor noch weiter steigern. Das Programm ist für Linux (apt-get install scantailor) und Windows erhältlich, wobei die Windowsversion im Release etwas hinterherhinkt. Der Vorteil an Scantailor ist, dass es alle wichtigen Funktionen des Preprozessing in schnell handhabbarer Weise anbietet. So lassen sich Dokumente oft in wenigen Sekunden bearbeiten. Hier erkläre ich die bedeutenden Schritte zur Vorbereitung von Bilddateien mit Scantailor ein ausführlicheres (englisches) Tutorial der Software findet man hier.

 

27 Replies to “Die Bedeutung des Preprocessing”

Schreibe einen Kommentar