{"id":132,"date":"2017-11-23T14:09:54","date_gmt":"2017-11-23T13:09:54","guid":{"rendered":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/?p=132"},"modified":"2017-11-24T14:46:20","modified_gmt":"2017-11-24T13:46:20","slug":"preprocessing-mit-scantailor","status":"publish","type":"post","link":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/2017\/11\/preprocessing-mit-scantailor\/","title":{"rendered":"Die Bedeutung des Preprocessing"},"content":{"rendered":"<figure id=\"attachment_133\" aria-describedby=\"caption-attachment-133\" style=\"width: 223px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" class=\"wp-image-133 size-medium\" src=\"https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/11\/huerden-223x300.jpg\" alt=\"H\u00fcrden in der Texterkennung\" width=\"223\" height=\"300\" srcset=\"https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/11\/huerden-223x300.jpg 223w, https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/11\/huerden-768x1032.jpg 768w, https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/11\/huerden-762x1024.jpg 762w, https:\/\/blogs.urz.uni-halle.de\/strickdings\/files\/2017\/11\/huerden.jpg 1302w\" sizes=\"(max-width: 223px) 100vw, 223px\" \/><figcaption id=\"caption-attachment-133\" class=\"wp-caption-text\">Initiale, Bilder und Spalten f\u00fchren oft zu Fehlern bei der Erkennung und beim Textlauf.<\/figcaption><\/figure>\n<p>Einer der bedeutendsten Schritte bei der Texterkennung ist die Vorbereitung des Materials, das sogenannte <em>Preprocessing<\/em>. Ziel des Preprocessing ist es, m\u00f6glichst viele H\u00fcrden f\u00fcr die Texterkennung zu entfernen.<\/p>\n<p>Die Texterkennung von unbereinigten Bilden liefert h\u00e4ufig schlechte Erkennungsraten aufgrund von kontrastarmen Eingangsbildern, zeilenweise Zeichensalat durch den Versuch Bilder und Initiale zu erkennen und zusammengeworfene S\u00e4tze, weil Spalten nicht aufgetrennt wurden.<\/p>\n<p>Die OCR-Software <a href=\"https:\/\/blogs.urz.uni-halle.de\/strickdings\/2017\/05\/ocropus-hoffnungstraeger-der-frakturschrifterkennung\/\">OCRopus<\/a> liefert zwei Module mit, um Bilder zu binarisieren (ocropus-nlbin) und in Zeilen zu segmentieren (ocropus-gpageseg). OCRopus bietet damit L\u00f6sungen, um den Kontrast zu erh\u00f6hen, St\u00f6rungen zu entfernen, mit Spalten umzugehen und ganz allgemein den Textkorpus in passende St\u00fccke zu zerlegen. Die Segmentierung in Zeilen ist dabei essentiell f\u00fcr die sp\u00e4tere Texterkennung.<\/p>\n<p>Obwohl die beiden Module ganz passable Ergebnisse liefern, lassen die Texterkennungsraten durch den Einsatz der Bildbearbeitungssoftware <a href=\"http:\/\/scantailor.org\/\">Scantailor<\/a> noch weiter steigern. Das Programm ist f\u00fcr Linux (apt-get install scantailor) und <a href=\"https:\/\/github.com\/scantailor\/scantailor\/releases\/tag\/RELEASE_0_9_11_1\">Windows<\/a> erh\u00e4ltlich, wobei die Windowsversion im Release etwas hinterherhinkt. Der Vorteil an Scantailor ist, dass es alle wichtigen Funktionen des Preprozessing in schnell handhabbarer Weise anbietet. So lassen sich Dokumente oft in wenigen Sekunden bearbeiten. <a href=\"https:\/\/blogs.urz.uni-halle.de\/strickdings\/2017\/11\/preprocessing-mit-scantailor-2\/\">Hier<\/a> erkl\u00e4re ich die bedeutenden Schritte zur Vorbereitung von Bilddateien mit Scantailor ein ausf\u00fchrlicheres (englisches) Tutorial der Software findet man <a href=\"https:\/\/vimeo.com\/12524529\">hier<\/a>.<\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Einer der bedeutendsten Schritte bei der Texterkennung ist die Vorbereitung des Materials, das sogenannte Preprocessing. Ziel des Preprocessing ist es, m\u00f6glichst viele H\u00fcrden f\u00fcr die Texterkennung zu entfernen. Die Texterkennung von unbereinigten Bilden liefert h\u00e4ufig schlechte Erkennungsraten aufgrund von kontrastarmen <a class=\"more-link\" href=\"https:\/\/blogs.urz.uni-halle.de\/strickdings\/2017\/11\/preprocessing-mit-scantailor\/\">weiterlesen  <span class=\"screen-reader-text\">  Die Bedeutung des Preprocessing<\/span><span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":241,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[4],"tags":[2,23,22,24],"_links":{"self":[{"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/posts\/132"}],"collection":[{"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/users\/241"}],"replies":[{"embeddable":true,"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/comments?post=132"}],"version-history":[{"count":9,"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/posts\/132\/revisions"}],"predecessor-version":[{"id":163,"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/posts\/132\/revisions\/163"}],"wp:attachment":[{"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/media?parent=132"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/categories?post=132"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogs.urz.uni-halle.de\/strickdings\/wp-json\/wp\/v2\/tags?post=132"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}