Topic Modellierung historischer Texte

Die Halleschen Journale – Erschließung

Ausgehend von der Grundüberlegung, dass, um alle Beiträge und Inhalte zu überblicken informatische Verfahren zwingend benötigt werden, beginnen an dieser Stelle bereits die ersten Schwierigkeiten. Da die Quellen nicht in ihrer Gesamtheit als Volltexte vorliegen, muss eine Möglichkeiten gesucht und gefunden werden, die es ermöglicht, auch ohne umfassende Digitalisierungen und OCR-Bearbeitungen einen modellierbaren Korpus zu generieren. Da für die grundlegende Erschließung der Zeitungen und Zeitschriften alle Inhaltsverzeichnisse erfasste wurden / werden sollen, entstand die Idee bereits auf dieser Ebene den TopicExplorer zum Einsatz zu bringen. Die Aufnahme der detaillierten Inhaltsverzeichnisse erfolgte händisch und in mühevoller „Abschreibe-Arbeit“.

Auszug aus dem Inhaltsverzeichnis der Annalen der Physik, Halle 1806, 22. Band.

Alle Beiträge wurden strukturiert in einer relationalen Datenbank erfasst, die es ermöglicht, für jeden einzelnen Beitrag detaillierte bibliographische Informationen zu generieren; Autoren mit allen von ihnen publizierten Beiträgen zu erfassen, die Verlaufsgeschichte einzelner Journale zu rekonstruieren und vieles mehr. Aktuell weist die Datenbank rund 30.000 Beitragseinträge auf, die mit rund 1.800 Personen auf unterschiedlichen Ebenen verknüpft sind.

 

TopicExplorer und Vorarbeiten

Die Artikelüberschriften der aufgeklärten Journale sind häufig relativ umfangreich, so dass die Hoffnung besteht, dass eine Vielzahl der für den Gesamtbeitrag relevanten Schlagwörter bereits an dieser Stelle aufgefunden werden können. Der durchschnittliche Umfang der Beitragsüberschriften beträgt 64 Zeichen. Diese eher gering anmutende Zahl ergibt sich dabei hauptsächlich durch eine kleine Anzahl sehr stark strukturierter Zeitschriften. Eine besondere Schwierigkeit stellen die in Halle anscheinend beliebten biographischen Mitteilungen dar, die mit unterschiedlichen Schwerpunkten bspw. über das Leben (berühmter) Rechtsgelehrter, Mediziner, Naturkundler etc. berichten und deren Artikelüberschriften nur jeweils aus dem Vollständigen Namen der betrachteten Person bestehen.

Samlung von merkwürdigen Lebensbeschreibungen, Erster Theil, Halle 1754.

Ebenfalls problematisch sind die mehrmals wöchentlich erscheinenden Zeitungen, deren Beiträge als Überschrift meist nur den Ort der eingehenden Nachricht umfassen. Für diese Gruppen von Journalen müssen tiefergreifende Erschließungsmethoden gefunden werden, um sie gleichberechtigt in die Topic-Modellierung einbeziehen zu können. Im Unterschied dazu müssen und können die naturwissenschaftlichen Journale als positive Beispiele herangezogen werden. Ihre Beitragsüberschriften erreichen eine durchschnittliche Länge von 97 Zeichen und erklären in den meisten Fällen detailliert die Gegenstände der folgenden Betrachtungen.

Für die Arbeit mit dem TopicExplorer wurden die Artikelüberschriften um weitere Informationen ergänzt, die aus der bestehenden Datenbank abfragt wurden – dies betrifft: das Publikationsdatum, den Autor und den Titel des Journals in dem der jeweilige Beitrag erschien. Diese zusätzlichen Informationen werden bei der Themengenerierung nicht berücksichtigt, ermöglichen aber eine nachträgliche Zuordnung, bzw. SQL-Abfragen für verschiedene Dokumentenrangkings.

Nach einer relativ mühevollen Bereinigung der Wortlisten, die insbesondere durch zahlreiche Abkürzungen, Autoreninitialen und Ortsnamen erschwert wurde, liefern die ersten Versuche einer Topic-Modellierung durchaus vielversprechende Ergebnisse – und zugleich zahlreiche Hinweise auf Verbesserungsnotwendigkeiten in der Vorverarbeitung.

 

Zu überwindende Schwierigkeiten

Inhaltsverzeichnis der Observationvm Selectarvm Ad Rem Litterariam Spectantivm, Band 1, 1707.

Als spezifisches Problem bei der Betrachtung der ersten Ergebnisse erwies sich die Sprache. Eine nicht geringe Anzahl von Dokumenten beinhaltet lateinische oder französische Titelüberschriften. Diese wurden zwar gleichberechtigt in die Analyse einbezogen und entsprechend Themen zugeordnet, doch besteht noch keine Möglichkeit einer automatisierten Übersetzung. Daher wurden bspw. zwischen synonymen lateinischen Begriffen und deutschsprachigen Bezeichnungen keine Beziehungen hergestellt. Dies führt dazu, dass sich insbesondere die französischsprachigen Beiträge nahezu ausschließlich in eigenständigen Themen wiederfinden, ohne einen Bezug zu ähnlichen Themen deutschsprachiger Dokumente aufzuweisen. Diese Beobachtung lässt es als zwingend notwendig erscheinen, eine sprachliche Angleichung (Übersetzung) vorzulagern. In unserem Beispiel betrifft dies mindestens ein Zehntel der Dokumente.

Anders gelagerte Schwierigkeiten ergeben sich aus den variierenden Schreibweisen. In einzelnen Fällen verursachte bereits die Genitiv-Form Probleme (Christenthum/Christenthums). An dieser Stelle könnte es durchaus vielversprechend sein, den mittlerweile zur Verfügung stehenden Cascaded Analysis Broker für historische Texte anzuwenden, um eine Normierung der Schreibweisen vorzunehmen. Bei naturwissenschaftlichen Dokumenten war diese Problematik deutlich geringer ausgeprägt, da hier differierende Schreibweisen ein deutlich kleineres Spektrum einnehmen und sich bei zahlreichen fachwissenschaftlichen Begriffen eine Standardisierung bereits zu Mitte des 18. Jahrhunderts durchgesetzt zu haben scheint. Zudem löste die deutsche Sprache in den Naturwissenschaften das gelehrte Latein schneller und nachhaltiger ab als in anderen Bereichen.

 

Ergebnisse

Trotz der oben skizzierten Probleme ergeben sich in der Modellierung bereits sehr überzeugend erscheinende Themen. Insbesondere die naturwissenschaftlichen Themen überzeugen in ihrer sowohl zeitlichen, als auch inhaltlichen Ausprägung. Beispielsweise reflektieren die Themen 7, 14 und 10 unterschiedliche Ausprägungen naturwissenschaftlicher Versuche. Thema 7 (940 Beiträge) legt einen Schwerpunkt auf Elektrizität und Alessandro Volta, Thema 10 (999 Beiträge) auf Versuche zu Wärme/Temperatur, Flüssigkeiten und Gasen und Thema 14 (1020 Beiträge) auf Magnetismus und Galvanismus. Für alle diese Topics können die zeitlichen Verläufe der jeweils dahinterstehenden rund 3.000 Beiträge betrachtet werden.

Themen 7, 10 und 14

Ein zweiter thematischer Schwerpunkt der halleschen Journale liegt in historischen Abhandlungen (Themen 9, 13 und 27), wobei hier die Schwerpunkte zwischen Lebensbeschreibungen, Staatshistorie und Betrachtungen der Antike variieren. Alle drei Themen finden sich mit einer ähnlichen Virulenz in den Dokumenten repräsentiert, wenn auch im Vergleich mit den ‚Versuchsthemen‘ mit deutlich weniger Konjunkturen.

Themen 9, 13 und 27.

Die relativ erfolgreich erscheinenden halleschen Rezensionszeitschriften sind u.a. in den Themen 23, 20 und 6 repräsentiert. Eine inhaltliche Differenzierung erfolgt zwischen wissenschaftlichen Themen (Thema 23, 970 Beiträge), Poesie/schöner Literatur (Thema 20, 1.132 Beiträge) und Theologie/Religion (Thema 6, 1.149 Beiträge). In ihrer zeitlichen Repräsentanz offenbaren sich bei diesen Themen deutliche Unterschiede.

Thema 23,20 und 6.

Entgegen dem Erwartungshorizont spiegeln sich in der Topic-Modellieren keine klar religiös/theologisch dominierten Themen wider. Hinterfragt man innerhalb des Topic-Explorers dezidiert Begriffe, die einen religiösen Kontext implizieren (z. B. Religion, Gott, Theologie, Kirche, Glaube, Gebet, Predigt), wird nachvollziehbar, dass sich diese in einer Vielzahl von Themen wiederfinden und in unterschiedlichsten Kontexten verortet werden. Beschränkt man sich dabei nur auf die oben aufgeführten Begriffe, werden bereits 19 von 30 Themen abgedeckt.

 

Weitere Schritte

In der kontinuierlichen Anpassung, sowohl in der Vorbereitung der Dokumente als auch der Topic-Modellierung im TopicExplorer, um eine bessere Verarbeitung historischer Dokumente zu gewährleisten, liegt eine zentrale Aufgabe. Andererseits fokussiert das Projekt auf die Interpretation der gefunden Themen und einen Vergleich zwischen ihnen. Dafür sollen weitere zur Verfügung stehende Metadaten über die Netzwerkanalyse mit den identifizierten Themen in Bezug gesetzt werden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.