OCRopus – Installation

Um OCRopus zu Installieren benötigt man drei Dinge: Ein Linuxsystem, OCRopus und eine Pythonumgebung mit den abhängigen Paketen.

Linux

Wenn man als Betriebssystem Windows oder Mac OS nutzt, ist es etwas unverhältnismäßig, allein wegen OCRopus Linux als Zweit- oder sogar Hauptsystem zu installieren. Am besten ist die Verwendung einer VirtualBox und des Linux-Derivats Ubuntu. Somit muss man nicht die ganze Festplattenpartitionierung umbauen und kann sich in einem geschützten Raum austoben. Das Einrichten einer virtuellen Maschine wird hier erklärt.

OCRopus

Am besten man erstellt sich in seinem Home-Verzeichnis einen Ordner build und speichert das Paket darin. OCRopus kann man sich hier von GitHub laden und dann einfach im Ordner build entpacken.

Python-Umgebung

Ocropus nutzt Python 2.7 und ist abhängig von den Paketen scipy, matplotlib und  lxml. In der Dokumentation wird auch noch numpy und pil erwähnt, deswegen habe ich die beiden Pakete in die PACKAGES-Datei mit hineingeschrieben.

Jetzt kann man mit strg+alt+t die Konsole öffnen und zum Ocropus-Ordner navigieren. Mit

cd build/ocropy-master/

wechselt man in das Verzeichnis. Man kann die Tabulatortaste benutzen um Verzeichnisnamen automatisch zu vervollständigen. Im Verzeichnis angekommen, folgt man den Installationsanordnungen, also

sudo apt-get install $(cat PACKAGES)

Damit werden die Pakete installiert, die wir vorher in der PACKAGES-Datei geschrieben haben. Die Liste ist vielleicht etwas länger, da auch alle abhängigen Pakete gezogen werden.

Jetzt holt man sich noch zwei Erkennungsmodelle, eins für normale Schrift und eins für Fraktur:

wget -nd http://www.tmbdev.net/en-default.pyrnn.gz
wget -nd http://tmbdev.net/ocropy/fraktur.pyrnn.gz

Und verschiebt sie in das Verzeichnis models/

mv en-default.pyrnn.gz fraktur.pyrnn.gz models/

Jetzt kann man OCRopus installieren.

python setup.py install

Die Erkennungsmodelle aus dem Ordner ~/build/ocropus-master/models/ (die ~ meint das Home-Verzeichnis) werden bei der Installation nach /usr/local/share/ocropus/ kopiert. Entweder man kopiert neue Modelle gleich dahin oder speichert sie im ~/build/ocropus-master/models/ und führt das Setup wieder durch. Dabei wird dann alles neu geschrieben.

Um zu testen, ob alles geklappt hat, kann man den run-test durchführen:

./run-test

Wenn die Warnung von matplotlib stört, kann man diese zwei Befehle ausprobieren:

sudo rm -rf ~/.cache/fontconfig
sudo rm -rf ~/.cache/matplotlib

One Reply to “OCRopus – Installation”

  1. Pingback: OCRopus – Hoffnungsträger der Frakturschrifterkennung – Digital Humanities selbst gestrickt

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*