OCRopus – Hoffnungsträger der Frakturschrifterkennung – Digital Humanities selbst gestrickt

Die optische Zeichenerkennung (engl. Optical Character Recognition, abgekürzt OCR) von Frakturschrift führte bislang weitestgehend zu unbefriedigenden Ergebnissen. Programme wie z. B. der kommerzielle Recognition Server 4 von ABBYY oder die freie Software Tesseract von Google bieten zwar durchaus eine Frakturerkennung an, jedoch weisen die Resultate der OCR noch hohe Fehlerquoten auf. OCRopus (auch ocropy) zeigt bei entsprechenden vorgehenden Training deutlich bessere Erkennungsquoten¹ (siehe Abbildung 1), daher lohnt es sich einen näheren Blick auf die Software zu werfen.

Erkennungsquoten — Abbildung 1: Fehlerquoten zu gegebenen Trainingsstufen; training: zum Trainieren genutztes Material; testing: unbekanntes Material (aus dem Lexikon „Grosses Universal Lexikon“ von Johann Heinrich Zedler)

OCRopus ist eine modular aufgebautes Kommandozeilenprogramm auf Basis eines neuronalen long short-term memory Netzes. Es ist in C++ und Python geschrieben und enthält u. a. Module zur Binarisierung (Erzeugung einer Rastergrafik), Segmentierung (Dokumentaufspaltung in Zeilen), Training neuer Zeichen und natürlich zu der Erkennung von Dokumenten. Ein bedeutender Vorteil dabei ist, dass jedes Modul eine Reihe von nachvollziehbaren Einstellungsmöglichkeiten hat, um auf die individuellen Herausforderungen jedes Dokumentes einzugehen. Zusätzlich besteht die Möglichkeit OCRopus auf die Erkennung einer bestimmten Schriftart, bzw. eines Zeichensatzes zu trainieren. Somit lassen sich individuell angefertigte Module verwenden, was die Erkennungsquoten enorm steigern kann. Die Benutzung eines Kommandozeilenprogramms setzt aber auch eine gewisse Kenntnis in der Bedienung einer Shell voraus, die für viele potenzielle Nutzer eine erste Einstiegshürde darstellt. In den Beiträgen zur Installation bzw. Benutzung von OCRopus wird versucht diese Hürden abzutragen.

In der Praxis besteht der Arbeitsablauf von OCRopus in der Vorbereitung und Erkennung der Dokumente, der Prüfung des Ergebnisses und (sollte dieses zufriedenstellend sein) der Transformation der erkannten Zeilen in ein Textdokument. Weist das Ergebnis zu viele Fehler auf, schließt sich ein Trainingsprozess an (siehe Abbildung 2).

Die hohen Erkennungsraten dürfen jedoch nicht dazu verleiten, in allzu großen Jubel auszubrechen. Das Vorbereiten (Preprocessing) der Dokumente und Nachbereiten (Postprocessing) der Ergebnisse, sowie das Training kann einige Zeit in Anspruch nehmen. Die Hoffnung, ein komplettes Buch innerhalb von wenigen Minuten in einen Volltext zu verwandeln, muss derzeit leider enttäuscht werden. OCRopus kann den Prozess der Volltexterkennung zwar erleichtern, von einer kompletten Automatisierung vom Digitalisat zum Volltext ist man jedoch noch ein Stück entfernt.

Springmann (2015): Ocrocis, S. 3; Vanderkam (2015a): Extracting text from an image using Ocropus; Zedlitz (2016a): OCRopus [↩]

26 Replies to “OCRopus – Hoffnungsträger der Frakturschrifterkennung”

Pingback: Die Bedeutung des Preprocessing – Digital Humanities selbst gestrickt

Hey! Quick question that’s completely off topic. Do you know how to make your site mobile friendly? My site looks weird when browsing from my iphone 4. I’m trying to find a theme or plugin that might be able to resolve this problem. If you have any suggestions, please share. Appreciate it!

Can you tell us more about this? I’d care to find out some additional information.

Great job for publishing such a beneficial website. Your web log isn’t only useful, but it is additionally really creative too.

I wrote about a similar issue, I give you the link to my site.

Your web log isn’t only useful but it is really creative too.

HELLO
HELLO
HAVE FUN Click!
VEGUS168 พบกับสุดยอดความบันเทิง

rich! rich! rich!

Click!
VEGUS168 พบกับสุดยอดความบันเทิง

Great content
สมัครสมาชิก เว กั ส 168

the best

Click!
RICH

very good

Click!
vegus

สล็อต เว็บใหญ่ pg เว็บเดียวครบทุกเกม

This site really good
vegus168

Most people, including me, agree with you, but you shouldn’t forget that people who don’t. We need to persuade them. For a better world!

awsome

This site really good
สล็อต168

Great Blog

vegus168 member

Thank you for writing this great book. I really liked everything. And I favoriteized your blog to read the new content you posted. 안전토토사이트 I would like to recommend a good topic if you wrote it. I’ll leave my blog address below, so come and check it out.

Thank you for the definite information. They were really helpful to me, who had just been put into related work. And thank you for recommending other useful blogs that I might be interested in. I’ll tell you where to help me, too. 먹튀검증

I have been looking for articles on these topics for a long time. keo nha cai I don’t know how grateful you are for posting on this topic. Thank you for the numerous articles on this site, I will subscribe to those links in my bookmarks and visit them often. Have a nice day

Schreibe einen Kommentar Antworten abbrechen

Du musst angemeldet sein, um einen Kommentar abzugeben.