Die Bedeutung des Preprocessing – Digital Humanities selbst gestrickt

Hürden in der Texterkennung — Initiale, Bilder und Spalten führen oft zu Fehlern bei der Erkennung und beim Textlauf.

Einer der bedeutendsten Schritte bei der Texterkennung ist die Vorbereitung des Materials, das sogenannte Preprocessing. Ziel des Preprocessing ist es, möglichst viele Hürden für die Texterkennung zu entfernen.

Die Texterkennung von unbereinigten Bilden liefert häufig schlechte Erkennungsraten aufgrund von kontrastarmen Eingangsbildern, zeilenweise Zeichensalat durch den Versuch Bilder und Initiale zu erkennen und zusammengeworfene Sätze, weil Spalten nicht aufgetrennt wurden.

Die OCR-Software OCRopus liefert zwei Module mit, um Bilder zu binarisieren (ocropus-nlbin) und in Zeilen zu segmentieren (ocropus-gpageseg). OCRopus bietet damit Lösungen, um den Kontrast zu erhöhen, Störungen zu entfernen, mit Spalten umzugehen und ganz allgemein den Textkorpus in passende Stücke zu zerlegen. Die Segmentierung in Zeilen ist dabei essentiell für die spätere Texterkennung.

Obwohl die beiden Module ganz passable Ergebnisse liefern, lassen die Texterkennungsraten durch den Einsatz der Bildbearbeitungssoftware Scantailor noch weiter steigern. Das Programm ist für Linux (apt-get install scantailor) und Windows erhältlich, wobei die Windowsversion im Release etwas hinterherhinkt. Der Vorteil an Scantailor ist, dass es alle wichtigen Funktionen des Preprozessing in schnell handhabbarer Weise anbietet. So lassen sich Dokumente oft in wenigen Sekunden bearbeiten. Hier erkläre ich die bedeutenden Schritte zur Vorbereitung von Bilddateien mit Scantailor ein ausführlicheres (englisches) Tutorial der Software findet man hier.

27 Replies to “Die Bedeutung des Preprocessing”

Hello ! I am a student writing a report on the subject of your post.Your article is an article with all the content and topics. I’ve ever wanted
https://www.sportstotomen.com

Usually I never comment on blogs but your article is so convincing that I never stop myself to say something about it. You’re doing a great job Man, Keep it up
https://www.gostopsite.com/

It’s awesome in favor of me to have a web site, which is helpful designed for my know-how. thanks admin
https://www.19guide03.com

You opened the door to new enlightenment. I read this article with great interest and this article was really necessary information for me. Thank you for writing a good article. 메이저놀이터

I’m writing a paper on a topic related to what you wrote. I was having a hard time because it didn’t go well, but your writing helped me a lot. Thanks to you, I think I can complete my thesis safely. Thank you. 안전놀이터

Thank you so much for posting such a good message. It was a great comfort to me who was having a hard time in life. I want you to write more about related topics. 먹튀검증사이트

VEGUS168S สมัครสมาชิก

Schreibe einen Kommentar Antworten abbrechen

Du musst angemeldet sein, um einen Kommentar abzugeben.