Die optische Zeichenerkennung (engl. Optical Character Recognition, abgekürzt OCR) von Frakturschrift führte bislang weitestgehend zu unbefriedigenden Ergebnissen. Programme wie z. B. der kommerzielle Recognition Server 4 von ABBYY oder die freie Software Tesseract von Google bieten zwar durchaus eine Frakturerkennung an, jedoch weisen die Resultate der OCR noch hohe Fehlerquoten auf. OCRopus (auch ocropy) zeigt bei entsprechenden vorgehenden Training deutlich bessere Erkennungsquoten1 (siehe Abbildung 1), daher lohnt es sich einen näheren Blick auf die Software zu werfen.
OCRopus ist eine modular aufgebautes Kommandozeilenprogramm auf Basis eines neuronalen long short-term memory Netzes. Es ist in C++ und Python geschrieben und enthält u. a. Module zur Binarisierung (Erzeugung einer Rastergrafik), Segmentierung (Dokumentaufspaltung in Zeilen), Training neuer Zeichen und natürlich zu der Erkennung von Dokumenten. Ein bedeutender Vorteil dabei ist, dass jedes Modul eine Reihe von nachvollziehbaren Einstellungsmöglichkeiten hat, um auf die individuellen Herausforderungen jedes Dokumentes einzugehen. Zusätzlich besteht die Möglichkeit OCRopus auf die Erkennung einer bestimmten Schriftart, bzw. eines Zeichensatzes zu trainieren. Somit lassen sich individuell angefertigte Module verwenden, was die Erkennungsquoten enorm steigern kann. Die Benutzung eines Kommandozeilenprogramms setzt aber auch eine gewisse Kenntnis in der Bedienung einer Shell voraus, die für viele potenzielle Nutzer eine erste Einstiegshürde darstellt. In den Beiträgen zur Installation bzw. Benutzung von OCRopus wird versucht diese Hürden abzutragen.
In der Praxis besteht der Arbeitsablauf von OCRopus in der Vorbereitung und Erkennung der Dokumente, der Prüfung des Ergebnisses und (sollte dieses zufriedenstellend sein) der Transformation der erkannten Zeilen in ein Textdokument. Weist das Ergebnis zu viele Fehler auf, schließt sich ein Trainingsprozess an (siehe Abbildung 2).
Die hohen Erkennungsraten dürfen jedoch nicht dazu verleiten, in allzu großen Jubel auszubrechen. Das Vorbereiten (Preprocessing) der Dokumente und Nachbereiten (Postprocessing) der Ergebnisse, sowie das Training kann einige Zeit in Anspruch nehmen. Die Hoffnung, ein komplettes Buch innerhalb von wenigen Minuten in einen Volltext zu verwandeln, muss derzeit leider enttäuscht werden. OCRopus kann den Prozess der Volltexterkennung zwar erleichtern, von einer kompletten Automatisierung vom Digitalisat zum Volltext ist man jedoch noch ein Stück entfernt.
- Springmann (2015): Ocrocis, S. 3; Vanderkam (2015a): Extracting text from an image using Ocropus; Zedlitz (2016a): OCRopus [↩]
Great Blog
แทงบอลเวกัส
vegus168 member
I read all the posts you wrote. I’ll share these with my team member. I’m so happy to finally find the article I’ve been looking for. I want you to know that your post helped our team a lot. 토토사이트
I’m an expert on your writing. Your writing stimulates my thinking as an expert. It can be seen that the article was written based on accurate reference materials. I even praise non-major for making it easy for them to understand. Thank you for sharing a good article. 메이저토토
I’m glad to know your blog. I’ve been writing for a long time for personal reasons and your writing makes me want to rewrite it. I will write and share a similar article to the topic of your article. I hope I can share my opinion with you on that. 메이저토토
I’m glad to know your blog. I’ve been writing for a long time for personal reasons and your writing makes me want to rewrite it. I will write and share a similar article to the topic of your article. I hope I can share my opinion with you on that. 메이저토토