{"id":24,"date":"2017-05-23T16:30:52","date_gmt":"2017-05-23T14:30:52","guid":{"rendered":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/?p=24"},"modified":"2017-06-07T15:14:11","modified_gmt":"2017-06-07T13:14:11","slug":"ocropus-hoffnungstraeger-der-frakturschrifterkennung","status":"publish","type":"post","link":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/2017\/05\/ocropus-hoffnungstraeger-der-frakturschrifterkennung\/","title":{"rendered":"OCRopus &#8211; Hoffnungstr\u00e4ger der Frakturschrifterkennung"},"content":{"rendered":"<p>Die optische Zeichenerkennung (engl. <em>Optical Character Recognition<\/em>, abgek\u00fcrzt OCR) von Frakturschrift f\u00fchrte bislang weitestgehend zu unbefriedigenden Ergebnissen. Programme wie z. B. der kommerzielle Recognition Server 4 von ABBYY oder die freie Software Tesseract von Google bieten zwar durchaus eine Frakturerkennung an, jedoch weisen die Resultate der OCR noch hohe Fehlerquoten auf. <a href=\"https:\/\/github.com\/tmbdev\/ocropy\">OCRopus <\/a>(auch ocropy) zeigt bei entsprechenden vorgehenden Training deutlich bessere Erkennungsquoten<sup><a href=\"#footnote_0_24\" id=\"identifier_0_24\" class=\"footnote-link footnote-identifier-link\" title=\"Springmann (2015): Ocrocis, S. 3; Vanderkam (2015a): Extracting text from an image using Ocropus; Zedlitz (2016a): OCRopus\">1<\/a><\/sup> (siehe Abbildung 1), daher lohnt es sich einen n\u00e4heren Blick auf die Software zu werfen.<\/p>\n<figure id=\"attachment_63\" aria-describedby=\"caption-attachment-63\" style=\"width: 807px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/05\/Erkennungsraten.png\"><img loading=\"lazy\" class=\"wp-image-63 size-full\" src=\"https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/05\/Erkennungsquoten.png\" alt=\"Erkennungsquoten\" width=\"807\" height=\"552\" srcset=\"https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/05\/Erkennungsquoten.png 807w, https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/05\/Erkennungsquoten-300x205.png 300w, https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/05\/Erkennungsquoten-768x525.png 768w\" sizes=\"(max-width: 807px) 100vw, 807px\" \/><\/a><figcaption id=\"caption-attachment-63\" class=\"wp-caption-text\">Abbildung 1: Fehlerquoten zu gegebenen Trainingsstufen; training: zum Trainieren genutztes Material; testing: unbekanntes Material (aus dem Lexikon \u201eGrosses Universal Lexikon\u201c von Johann Heinrich Zedler)<\/figcaption><\/figure>\n<p>OCRopus ist eine modular aufgebautes <a href=\"https:\/\/de.wikipedia.org\/wiki\/Kommandozeile\">Kommandozeilenprogramm <\/a>auf Basis eines neuronalen <a href=\"https:\/\/de.wikipedia.org\/wiki\/Long_short-term_memory\">long short-term memory<\/a> Netzes. Es ist in C++ und Python geschrieben und enth\u00e4lt u. a. Module zur Binarisierung (Erzeugung einer Ras\u00adtergrafik), Segmentierung (Dokumentaufspaltung in Zeilen), Training neuer Zeichen und nat\u00fcrlich zu der Erkennung von Dokumenten. Ein bedeutender Vorteil dabei ist, dass jedes Modul eine Reihe von nachvollziehbaren Einstellungsm\u00f6glichkeiten hat, um auf die individuellen Herausforderungen jedes Dokumentes einzugehen. Zus\u00e4tzlich besteht die M\u00f6glichkeit OCRopus auf die Erkennung einer bestimmten Schriftart, bzw. eines Zeichensatzes zu trainieren. Somit lassen sich individuell angefertigte Module verwenden, was die Erkennungsquoten enorm steigern kann. Die Benutzung eines Kommandozeilenprogramms setzt aber auch eine gewisse Kenntnis in der Bedienung einer <a href=\"https:\/\/de.wikipedia.org\/wiki\/Shell_(Betriebssystem)\">Shell <\/a>voraus, die f\u00fcr viele potenzielle Nutzer eine erste Einstiegsh\u00fcrde darstellt. In den Beitr\u00e4gen zur <a href=\"https:\/\/blogs.urz.uni-halle.de\/strickdings\/2017\/05\/ocropus-installation\/\">Installation<\/a> bzw. Benutzung von OCRopus wird versucht diese H\u00fcrden abzutragen.<\/p>\n<p>In der Praxis besteht der Arbeitsablauf von OCRopus in der Vorbereitung und Erkennung der Dokumente, der Pr\u00fcfung des Ergebnisses und (sollte dieses zufriedenstellend sein) der Transformation der erkannten Zeilen in ein Textdokument. Weist das Ergebnis zu viele Fehler auf, schlie\u00dft sich ein Trainingsprozess an (siehe Abbildung 2).<\/p>\n<figure id=\"attachment_31\" aria-describedby=\"caption-attachment-31\" style=\"width: 688px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/05\/ocropus-schritte.png\"><img loading=\"lazy\" class=\"wp-image-31 size-full\" src=\"https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/05\/ocropus-schritte.png\" alt=\"Arbeitsablauf \" width=\"688\" height=\"840\" srcset=\"https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/05\/ocropus-schritte.png 688w, https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/05\/ocropus-schritte-246x300.png 246w\" sizes=\"(max-width: 688px) 100vw, 688px\" \/><\/a><figcaption id=\"caption-attachment-31\" class=\"wp-caption-text\">Abbildung 2: Arbeitsablauf einer Texterkennung mit OCRopus. Dargestellt sind die Arbeitsschritte mit den dazugeh\u00f6rigen Modulen.<\/figcaption><\/figure>\n<p>Die hohen Erkennungsraten d\u00fcrfen jedoch nicht dazu verleiten, in allzu gro\u00dfen Jubel auszubrechen. Das Vorbereiten (Preprocessing) der Dokumente und Nachbereiten (Postprocessing) der Ergebnisse, sowie das Training kann einige Zeit in Anspruch nehmen. Die Hoffnung, ein komplettes Buch innerhalb von wenigen Minuten in einen Volltext zu verwandeln, muss derzeit leider entt\u00e4uscht werden. OCRopus kann den Prozess der Volltexterkennung zwar erleichtern, von einer kompletten Automatisierung vom Digitalisat zum Volltext ist man jedoch noch ein St\u00fcck entfernt.<\/p>\n<ol class=\"footnotes\"><li id=\"footnote_0_24\" class=\"footnote\"><a href=\"http:\/\/cistern.cis.lmu.de\/ocrocis\/tutorial.pdf\">Springmann (2015)<\/a>: Ocrocis, S. 3; <a href=\"http:\/\/www.danvk.org\/2015\/01\/09\/extracting-text-from-an-image-using-ocropus.html\">Vanderkam (2015a)<\/a>: Extracting text from an image using Ocropus;<a href=\"https:\/\/comsys.informatik.uni-kiel.de\/lang\/de\/res\/ocropus\/\"> Zedlitz (2016a)<\/a>: OCRopus [<a href=\"#identifier_0_24\" class=\"footnote-link footnote-back-link\">&#8617;<\/a>]<\/li><\/ol>","protected":false},"excerpt":{"rendered":"<p>OCRopus ist ein Texterkennungsprogramm, das eine hohe Erkennungsrate auch bei Frakturschrift aufweist. In diesem Beitrag wird es kurz vorgestellt. <a class=\"more-link\" href=\"https:\/\/blogs.urz.uni-halle.de\/strickdings\/2017\/05\/ocropus-hoffnungstraeger-der-frakturschrifterkennung\/\">weiterlesen  <span class=\"screen-reader-text\">  OCRopus &#8211; Hoffnungstr\u00e4ger der Frakturschrifterkennung<\/span><span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":241,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[4],"tags":[2,3],"_links":{"self":[{"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/posts\/24"}],"collection":[{"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/users\/241"}],"replies":[{"embeddable":true,"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/comments?post=24"}],"version-history":[{"count":10,"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/posts\/24\/revisions"}],"predecessor-version":[{"id":79,"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/posts\/24\/revisions\/79"}],"wp:attachment":[{"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/media?parent=24"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/categories?post=24"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/tags?post=24"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}