Preprocessing mit Scantailor

Im Folgenden Artikel erkläre ich die Vorbereitung (Preprocessing) eines PDF-Dokuments für die Texterkennung mit OCRopus. Dabei behandle ich die Konvertierung in die benötigten Formate (pdf2tif, tif2png) und die Bearbeitung mit der Software Scantailor. Das Ziel ist von den unbearbeiteten PDFs weiterlesen Preprocessing mit Scantailor

Die Bedeutung des Preprocessing

Einer der bedeutendsten Schritte bei der Texterkennung ist die Vorbereitung des Materials, das sogenannte Preprocessing. Ziel des Preprocessing ist es, möglichst viele Hürden für die Texterkennung zu entfernen. Die Texterkennung von unbereinigten Bilden liefert häufig schlechte Erkennungsraten aufgrund von kontrastarmen weiterlesen Die Bedeutung des Preprocessing

Textkorpora durch Distant Reading analysieren mit Voyant Tools

Voyant Tools ist ein von Stefan Sinclair und Geoffrey Rockwell an der University of Alberta entwickeltes freies Webtool zum Distant Reading. Es wurde speziell für die (sehr unterschiedlichen) Belange der Digital Humanities entwickelt und enthält zum Testen zwei Sammlungen: Die weiterlesen Textkorpora durch Distant Reading analysieren mit Voyant Tools

Coffee Talks: Sabine Beckmann und Susanne Kretzer (Uni Bremen): Arbeit mit anonymisierten Interviewdaten/ Qualitative Data Archiving

Coffee Talks, Ort und Termin: 16. November 2017, 18-20 Uhr, Veranstaltungsraum 311, August-Bebel-Straße 13, 06108 Halle (Saale) Während es in der quantitativen Sozialforschung eine schon länger währende Tradition der Sekundärnutzung von Forschungsdaten gibt, bleibt die Auseinandersetzung mit den Ergebnis-sen qualitativer weiterlesen Coffee Talks: Sabine Beckmann und Susanne Kretzer (Uni Bremen): Arbeit mit anonymisierten Interviewdaten/ Qualitative Data Archiving