Topic Modellierung historischer Texte

Die Halleschen Journale – Erschließung

Ausgehend von der Grundüberlegung, dass, um alle Beiträge und Inhalte zu überblicken informatische Verfahren zwingend benötigt werden, beginnen an dieser Stelle bereits die ersten Schwierigkeiten. Da die Quellen nicht in ihrer Gesamtheit als Volltexte vorliegen, muss eine Möglichkeiten gesucht und gefunden werden, die es ermöglicht, auch ohne umfassende Digitalisierungen und OCR-Bearbeitungen einen modellierbaren Korpus zu generieren. Da für die grundlegende Erschließung der Zeitungen und Zeitschriften alle Inhaltsverzeichnisse erfasste wurden / werden sollen, entstand die Idee bereits auf dieser Ebene den TopicExplorer zum Einsatz zu bringen. Die Aufnahme der detaillierten Inhaltsverzeichnisse erfolgte händisch und in mühevoller „Abschreibe-Arbeit“.

Auszug aus dem Inhaltsverzeichnis der Annalen der Physik, Halle 1806, 22. Band.

Alle Beiträge wurden strukturiert in einer relationalen Datenbank erfasst, die es ermöglicht, für jeden einzelnen Beitrag detaillierte bibliographische Informationen zu generieren; Autoren mit allen von ihnen publizierten Beiträgen zu erfassen, die Verlaufsgeschichte einzelner Journale zu rekonstruieren und vieles mehr. Aktuell weist die Datenbank rund 30.000 Beitragseinträge auf, die mit rund 1.800 Personen auf unterschiedlichen Ebenen verknüpft sind.

 

TopicExplorer und Vorarbeiten

Die Artikelüberschriften der aufgeklärten Journale sind häufig relativ umfangreich, so dass die Hoffnung besteht, dass eine Vielzahl der für den Gesamtbeitrag relevanten Schlagwörter bereits an dieser Stelle aufgefunden werden können. Der durchschnittliche Umfang der Beitragsüberschriften beträgt 64 Zeichen. Diese eher gering anmutende Zahl ergibt sich dabei hauptsächlich durch eine kleine Anzahl sehr stark strukturierter Zeitschriften. Eine besondere Schwierigkeit stellen die in Halle anscheinend beliebten biographischen Mitteilungen dar, die mit unterschiedlichen Schwerpunkten bspw. über das Leben (berühmter) Rechtsgelehrter, Mediziner, Naturkundler etc. berichten und deren Artikelüberschriften nur jeweils aus dem Vollständigen Namen der betrachteten Person bestehen.

Samlung von merkwürdigen Lebensbeschreibungen, Erster Theil, Halle 1754.

Ebenfalls problematisch sind die mehrmals wöchentlich erscheinenden Zeitungen, deren Beiträge als Überschrift meist nur den Ort der eingehenden Nachricht umfassen. Für diese Gruppen von Journalen müssen tiefergreifende Erschließungsmethoden gefunden werden, um sie gleichberechtigt in die Topic-Modellierung einbeziehen zu können. Im Unterschied dazu müssen und können die naturwissenschaftlichen Journale als positive Beispiele herangezogen werden. Ihre Beitragsüberschriften erreichen eine durchschnittliche Länge von 97 Zeichen und erklären in den meisten Fällen detailliert die Gegenstände der folgenden Betrachtungen.

Für die Arbeit mit dem TopicExplorer wurden die Artikelüberschriften um weitere Informationen ergänzt, die aus der bestehenden Datenbank abfragt wurden – dies betrifft: das Publikationsdatum, den Autor und den Titel des Journals in dem der jeweilige Beitrag erschien. Diese zusätzlichen Informationen werden bei der Themengenerierung nicht berücksichtigt, ermöglichen aber eine nachträgliche Zuordnung, bzw. SQL-Abfragen für verschiedene Dokumentenrangkings.

Nach einer relativ mühevollen Bereinigung der Wortlisten, die insbesondere durch zahlreiche Abkürzungen, Autoreninitialen und Ortsnamen erschwert wurde, liefern die ersten Versuche einer Topic-Modellierung durchaus vielversprechende Ergebnisse – und zugleich zahlreiche Hinweise auf Verbesserungsnotwendigkeiten in der Vorverarbeitung.

 

Zu überwindende Schwierigkeiten

Inhaltsverzeichnis der Observationvm Selectarvm Ad Rem Litterariam Spectantivm, Band 1, 1707.

Als spezifisches Problem bei der Betrachtung der ersten Ergebnisse erwies sich die Sprache. Eine nicht geringe Anzahl von Dokumenten beinhaltet lateinische oder französische Titelüberschriften. Diese wurden zwar gleichberechtigt in die Analyse einbezogen und entsprechend Themen zugeordnet, doch besteht noch keine Möglichkeit einer automatisierten Übersetzung. Daher wurden bspw. zwischen synonymen lateinischen Begriffen und deutschsprachigen Bezeichnungen keine Beziehungen hergestellt. Dies führt dazu, dass sich insbesondere die französischsprachigen Beiträge nahezu ausschließlich in eigenständigen Themen wiederfinden, ohne einen Bezug zu ähnlichen Themen deutschsprachiger Dokumente aufzuweisen. Diese Beobachtung lässt es als zwingend notwendig erscheinen, eine sprachliche Angleichung (Übersetzung) vorzulagern. In unserem Beispiel betrifft dies mindestens ein Zehntel der Dokumente.

Anders gelagerte Schwierigkeiten ergeben sich aus den variierenden Schreibweisen. In einzelnen Fällen verursachte bereits die Genitiv-Form Probleme (Christenthum/Christenthums). An dieser Stelle könnte es durchaus vielversprechend sein, den mittlerweile zur Verfügung stehenden Cascaded Analysis Broker für historische Texte anzuwenden, um eine Normierung der Schreibweisen vorzunehmen. Bei naturwissenschaftlichen Dokumenten war diese Problematik deutlich geringer ausgeprägt, da hier differierende Schreibweisen ein deutlich kleineres Spektrum einnehmen und sich bei zahlreichen fachwissenschaftlichen Begriffen eine Standardisierung bereits zu Mitte des 18. Jahrhunderts durchgesetzt zu haben scheint. Zudem löste die deutsche Sprache in den Naturwissenschaften das gelehrte Latein schneller und nachhaltiger ab als in anderen Bereichen.

 

Ergebnisse

Trotz der oben skizzierten Probleme ergeben sich in der Modellierung bereits sehr überzeugend erscheinende Themen. Insbesondere die naturwissenschaftlichen Themen überzeugen in ihrer sowohl zeitlichen, als auch inhaltlichen Ausprägung. Beispielsweise reflektieren die Themen 7, 14 und 10 unterschiedliche Ausprägungen naturwissenschaftlicher Versuche. Thema 7 (940 Beiträge) legt einen Schwerpunkt auf Elektrizität und Alessandro Volta, Thema 10 (999 Beiträge) auf Versuche zu Wärme/Temperatur, Flüssigkeiten und Gasen und Thema 14 (1020 Beiträge) auf Magnetismus und Galvanismus. Für alle diese Topics können die zeitlichen Verläufe der jeweils dahinterstehenden rund 3.000 Beiträge betrachtet werden.

Themen 7, 10 und 14

Ein zweiter thematischer Schwerpunkt der halleschen Journale liegt in historischen Abhandlungen (Themen 9, 13 und 27), wobei hier die Schwerpunkte zwischen Lebensbeschreibungen, Staatshistorie und Betrachtungen der Antike variieren. Alle drei Themen finden sich mit einer ähnlichen Virulenz in den Dokumenten repräsentiert, wenn auch im Vergleich mit den ‚Versuchsthemen‘ mit deutlich weniger Konjunkturen.

Themen 9, 13 und 27.

Die relativ erfolgreich erscheinenden halleschen Rezensionszeitschriften sind u.a. in den Themen 23, 20 und 6 repräsentiert. Eine inhaltliche Differenzierung erfolgt zwischen wissenschaftlichen Themen (Thema 23, 970 Beiträge), Poesie/schöner Literatur (Thema 20, 1.132 Beiträge) und Theologie/Religion (Thema 6, 1.149 Beiträge). In ihrer zeitlichen Repräsentanz offenbaren sich bei diesen Themen deutliche Unterschiede.

Thema 23,20 und 6.

Entgegen dem Erwartungshorizont spiegeln sich in der Topic-Modellieren keine klar religiös/theologisch dominierten Themen wider. Hinterfragt man innerhalb des Topic-Explorers dezidiert Begriffe, die einen religiösen Kontext implizieren (z. B. Religion, Gott, Theologie, Kirche, Glaube, Gebet, Predigt), wird nachvollziehbar, dass sich diese in einer Vielzahl von Themen wiederfinden und in unterschiedlichsten Kontexten verortet werden. Beschränkt man sich dabei nur auf die oben aufgeführten Begriffe, werden bereits 19 von 30 Themen abgedeckt.

 

Weitere Schritte

In der kontinuierlichen Anpassung, sowohl in der Vorbereitung der Dokumente als auch der Topic-Modellierung im TopicExplorer, um eine bessere Verarbeitung historischer Dokumente zu gewährleisten, liegt eine zentrale Aufgabe. Andererseits fokussiert das Projekt auf die Interpretation der gefunden Themen und einen Vergleich zwischen ihnen. Dafür sollen weitere zur Verfügung stehende Metadaten über die Netzwerkanalyse mit den identifizierten Themen in Bezug gesetzt werden.

Der zeitliche Rahmen

Das Projekt bewegt sich in der „Aufklärungsepoche“ – doch wie diese zeitlich eingrenzen? Dabei ist der Beginn dieser „Epoche“ im Projekt noch relativ einfach zu bestimmen. Im Januar des Jahres 1688 erscheint (noch mit Verlagsort Franckfurth und Leipzig, bei dem Buchhändler Moritz Georg Weidmann) der erste Band der von Christian Thomasius herausgegebenen und verfassten Zeitschrift:

Schertz- und ernsthaffter, vernünfftiger und einfältiger Gedancken über allerhand lustige und nützliche Bücher und Fragen„.

Schertz- und Ernsthaffter, Vernünfftiger und Einfältiger Gedanken, über allerhand Lustige und nützliche Bücher und Fragen, Deckblatt der Aprilausgabe 1688.

Die Märzausgabe führt als Verlagsort nur noch Leipzig und mit dem Monat April wechselt Thomasius‘ Zeitschrift nach Halle in den Verlag des Chur-Fürstlich Brandenburgischen Hoff- und Regierungs Buchdruckers, Christoph Salfelden.

Für die folgenden Jahrzehnte erfasst das Projekt alle Zeitungen und Zeitschriften , deren Verlagsort in Halle  (Hall in Sachsen, Halae, Halle im Magdeburgischen etc. – um nur einige der zahlreichen Synonyme aufzuführen) gefunden werden kann. Einige Journale erscheinen nur mit einer einzigen Ausgabe, andere unregelmäßig über mehrere Jahre und Jahrzehnte, wieder andere kontinuierlich über Jahrhunderte hinweg. Somit drängt sich die Frage nach dem „Ende“ der Aufklärungsepoche auf.

Obwohl in der Literaturwissenschaft das „Ende der Aufklärung“ meist um 1800 verortet wird, und auch in der halleschen Presselandschaft ein deutlicher Einbruch der Journalneugründungen um 1802 zu verzeichnen ist, reicht der Projektzeitraum aus unterschiedlichen Gründen bis zum Jahr 1815. Zum einen bringen die napoleonische Besatzung und die Befreiungskriege auch für die Journale vollkommen neue Herausforderungen mit sich, deren Bewältigungsstrategien sich stark unterscheiden. Einige Verleger in Halle stellen die Herausgabe von Zeitschriften und Zeitungen vollkommen ein. Zum einen da Zeitschriften nun ebenfalls als Luxusprodukte gelten, deren Absatz in Krisensituationen deutlich zurückgeht, zum anderen da mit der Schließung der Universität Halle im Jahr 1806 Herausgeber, Autoren und Leser verloren gehen und die Produktion auf Grund der gestiegenen Produktionskosten nicht mehr kostendeckend sein kann. Erstaunlicher Weise nutzt kein hallescher Verleger die Möglichkeit, den Wünschen des Publikums, nach aktuellen und zeitnahen Informationen zu entsprechen, sodass keine Verstärkung des Zeitungsmarktes in Halle zu beobachten ist – hier scheint die räumliche Nähe zu Leipzig ein stärkeres Engagement verhindert zu haben. Denn aktuelle Nachrichten gelangten weniger schnell nach Halle und ihre Publikation hätte keinesfalls gegen die Konkurrenz der Leipziger Nachrichtenblätter bestehen können.

Anzahl der jährlich in Halle begründeten Journale (1688-1815)

Andere Verleger hingegen prägen ihre inhaltlichen Schwerpunkte gerade in dieser Zeit stärker aus. Anstatt auf ein umfassendes Sortiment thematisch verschiedener Journale zu setzen, konzentrieren sie sich auf die Publikation fachlich herausragender Journale – in Halle überdauern vor allem naturkundliche, medizinische und staatswissenschaftliche Zeitschriften die Schließung der Universität.

Um die Reaktion auf elementare wirtschaftliche, politische und alltägliche Krisenphasen abbilden zu können, wurde das Ende der „Aufklärungsepoche“ bis zum Ende der napoleonischen Kriege 1815 ausgedehnt.

Deutsches Archiv für die Physiologie, Band 1, Heft 1, 1815.

Das letzte der 360 in Halle herausgegebenen Journale war die von Johann Friedrich Meckel begründete Zeitschrift: „Deutsches Archiv für die Physiologie„, die bis 1823 Bestand hatte.

 

 

 

 

 

 

Die halleschen Zeitungen und Zeitschriften der Aufklärungsepoche (1688-1815)

Im Rahmen eines am Interdisziplinären Zentrum für die Erforschung der Europäischen Aufklärung (IZEA) in  – verständlicher Weise – Halle an der Saale, begonnenen Projektes sollte zunächst ein Verzeichnis der in Halle periodisch erschienenen Druckwerke entstehen, um die Bedeutung der Universitätsstadt als Verlagsstandort, in unmittelbarer Nähe zur Messestadt Leipzig im 18. Jahrhundert zu verdeutlichen.

Durch die intensiver werdende Auseinandersetzung mit den halleschen Journalen drängten sich diese aber immer stärker selbst in den Vordergrund, wollten nicht nur verzeichnet, sondern auch gesichtet sein, nicht nur um- und beschrieben, sondern auch gelesen und in ihrer ganzen Bandbreite als herausragende literarische, kulturelle, wissenschaftliche, unterhaltende, belehrende und informierende Produkte wahrgenommen werden.

‚Der Gesellige‘ 2. Band, Halle bey Johann Justinus Gebauer 1764.

Der durchaus eigenständigen Dynamik der periodischen Presse während der Aufklärung folgend, wandelte sich das ursprünglich geplante ‚Handbuch der Halleschen Zeitungen und Zeitschriften‘ zu einem Projekt, dass noch weit über die zu Grunde liegenden Medien hinausgeht und nun die „Gesellschaftliche Wissensproduktion in der Aufklärung“ hinterfragen möchte.