Workshop: Swantje Westphal (IDS Mannheim): Erste Schritte einer Normalisierung, Lemmatisierung und eines POS-Taggings für ein Korpus historischer Lexikonartikel von Berufsbezeichnungen

Erster Workshop, Ort und Termin: 23. Oktober 2017, SR. 15, Emil-Abderhalden-Str. 25, 06108 Halle

Die Darstellung der Datenaufbereitung im Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) soll Einblicke in Verfahren der orthographischen Normalisierung, der Lemmatisierung und in das POS-Tagging von nicht-standardsprachlichen Daten ermöglichen. Anhand dieser Einblicke sollen die Möglichkeiten solcher sprachtechnologischen Verfahren für die Anwendung auf historische Korpora diskutiert werden. An einem Datenbeispiel sollen praktisch erste Schritte einer Normalisierung, Lemmatisierung und eines POS-Taggings für ein Korpus historischer Lexikonartikel von Berufsbezeichnungen aufgezeigt werden. Schritt für Schritt werden die Teilnehmer mit verschiedenen Tools (Weblicht, FOLKER, OrthoNormal) zur automatisierten Annotation von Korpora vertraut gemacht und die Ergebnisse der automatisierten Annotation in Hinblick auf Ihre Verwendbarkeit für den Aufbau einer Ontologie von Berufsbezeichnungen analysiert. Abschließend sollen Möglichkeiten zur Verbesserung der automatisierten Annotation des Korpus historischer Lexikonartikel von Berufsbezeichnungen aufgezeigt und diskutiert werden.

Über Katrin Moeller

Als wissenschaftliche Mitarbeiterin und Leiterin des Historischen Datenzentrums Sachsen-Anhalt bin ich an der Professur für Wirtschafts- und Sozialgeschichte am Insititut für Geschichte der Martin-Luther-Universität Halle-Wittenberg tätig. Nicht nur im Rahmen meiner wissenschaftlichen Tätigkeit sondern auch in Lehrveranstaltungen gibt es so viele Berührungspunkte rund um das Thema "Digital Humanities, Methoden in der Geschichtswissenschaften und Forschungsdatenmanagement". Mit Leidenschaft bin und bleibe ich aber vor allem Historikerin der Frühen Neuzeit!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*