Nutzung des TopicExplorers zu den halleschen Journalen

Der TopicExplorer zu den halleschen Journalen kann in einer eingeschränkten Prototypversion und unter Berücksichtigung der Tatsache, dass erst 290 von 360 Journalen eingepflegt wurden, bereits genutzt werden. Dennoch muss darauf hingewiesen werden, dass die Topic-Modellierung noch Schwachstellen aufweist, gleichzeitig aber sowohl die Vorverarbeitung als auch die Funktionsweise des TopicExplorers permanent überarbeitet, angepasst und verbessert werden. Vorhandene Schwierigkeiten (z.B. der Sprachmix innerhalb der Journale) sollen in den kommenden Testläufen überwunden werden.

Ausgehend von der gesamten Nutzeroberfläche werden im Folgenden einzelne Funktionsweisen erklärt.

Screenshot der Benutzungsoberfläche des TopicExplorers

Ein zentrales Anliegen des TopicExplorers besteht im ähnlichkeitsbasierten Layout der Themen.

Ähnlichkeitsbasiertes Layout der Themen.

Ein Algorithmus berechnet dafür ein hierarchisches Clustering der Themen, wobei jedes Thema ein Element auf der untersten Stufe der berechneten Hierarchie darstellt. Die dadurch erzeugte Themenreihenfolge wird als Regenbogenskala dargestellt. Die Farbe dient in dieser Umsetzung als visuelle Hash-Funktion, d.h. eine ähnliche Farbe weist auf ein ähnliches Thema hin. Die farbliche Zuordnung selbst bietet dem Nutzer Orientierung auf drei Ebenen:

1. der Themen,

2. für das Durchsuchen und Ordnen der Dokumente und

3. für die Wortzuordnung in den einzelnen Dokumenten.

Die Topics selbst werden durch Wortlisten umrissen, deren Wörter nach absteigender Wahrscheinlichkeit sortiert sind, so dass die häufigsten Wörter in einem Topic oben stehen. Diese Liste kann für jedes Thema vollständig durchgescrollt werden.

Durch das Klicken auf den Kopf einer Topic-Wortliste wird im zentralen Bereich der Benutzeroberfläche ein Dokumenten-Ranking geöffnet. Die dargestellten Links zu den Dokumenten sind absteigend nach der Anzahl der Wörter sortiert, die dem gewählten Topic zugeordnet sind. Für jedes Dokument werden neben dem Titel durch maximal vier farbige Kreise die wichtigsten Topics angezeigt.

Dokumente des Themas 0.

Fährt man mit dem Mauszeiger über die einzelnen Punkte erscheint die Nummer des entsprechenden Themas. Mittels Anklicken des Punktes verschiebt sind die untere Leiste zum entsprechenden Topic.

Mit Klick auf einen Dokumententitel öffnet sich die Vollansicht des Dokumentes.

Detailansicht eines Dokuments aus dem Thema 0.

An dieser Stelle kann zugleich eine Dokumentenprüfung erfolgen, da die Themenzuordnung einzelner Begriffe in einem Dokument durch farbige Unterstreichungen hervorgehoben wird. Auch in diesem Fall führt ein Klick auf die entsprechende Farbe zur Darstellung des Themas in der Themenübersicht. Weil häufige und seltene Wörter ebenso wie grammatische Funktionswörter nicht Teil der Eingabe des Topic-Modells sind, haben nicht alle Wörter eine Topic-Zuordnung. Eine Besonderheit der Anwendung auf das Gesamtkorpus der halleschen Zeitungen und Zeitschriften liegt in dem Versuch, zunächst ausschließlich mit den Artikelüberschriften, ergänzt um den Titel der Zeitschriften und wenn möglich den Namen der Autoren zu arbeiten.

Durch die integrierte Suchfunktion kann deutlich gemacht werden, dass Wörter in verschiedenen Kontexten benutzt werden. Diese Kontexte werden bei der Auto-Vervollständigung als eine Liste von Topics angezeigt, denen ein Wort in verschiedenen Dokumenten zugeordnet wurde. So ist der Wortstamm „Erzieh“ Teil von mehreren Topics.

Suchfunktion mit Auto-Vervollständigen.

Da eine Textanalyse immer verschiedene thematische Granularitäten erfordert, können im Topic-Explorer Topics interaktiv zusammengefasst und aufgeteilt werden. Auf diese Weise ist es für den Nutzer sehr einfach, innerhalb der Topic-Hierarchie, die schon für die Bestimmung der linearen Anordnung der Topics nach Wortähnlichkeit genutzt wurde, interaktiv zu navigieren .

Hierarische Themen – Ausgangssituation.

Fährt man mit dem Mauszeiger auf die Verbindungslinie zwischen Thema 7 und 11 wird in einer Vorschau der Themenzusammenführung angezeigt, welche Topics zusammengefasst würden, diese sind jetzt in der gleichen Farbe dargestellt, in diesem Fall würde auf Grund der hohen Ähnlichkeit auch Thema 14 mit eingeschlossen werden.

Hierarchische Themen – Vorschau.

Durch einen Klick auf die Vorschau wird die Zusammenführung bestätigt und es ergibt sich folgendes Bild:

Hierarchische Themen – Zusammenführung.

Der Effekt der Zusammenfassung wird sofort in den anderen Ansichten visualisiert, z. B. in der Darstellung der zeitlichen Entwicklung.

Durch einen Klick auf das Symbol  können die drei Themen in Einzelschritten wieder getrennt werden.

Da alle Zeitschriftenbeiträge mit einem Zeitstempel versehen sind, kann die zeitliche Entwicklung derTopics visualisiert werden. Ein Klick auf das Symbol  öffnet die entsprechende Ansicht. Das Beispiel zeigt die Evolution von Thema 14 im Umfeld der seit 1780 publizierten galvanischen Experimente und Versuche, deren Auswertung und zunehmende Verbreitung. Die verschiedenen Reaktionen werden durch die Topics kategorisiert. Die Grafik zeigt die zeitliche Entwicklung mit den jeweils wichtigen Wörtern für jeden Zeitabschnitt.

Zeitliche Entwicklung des Themas 14 mit Beispiel für die Anzeige zentraler Begriffe.

Problematisch an dieser Darstellung ist die Tatsache, dass der TopicExplorer in seiner Entwicklung für aktuelle Medien (Twitter, Facebook, Tageszeitungen etc.) angedacht war. Eine Anpassung in der Visualisierung an die historischen Zeiträume konnte – wenn auch als weiterer Fortschritt von zentraler Bedeutung – noch nicht erfolgen. Aktuell basiert der zeitliche Verlauf auf einer Umrechnung der Jahre zwischen 1688 und 1824 auf jeweils eine Kalenderwoche zwischen dem 1.1.2011 und dem 31.7.2015 die dadurch bedingten Ungenauigkeiten und der teilweise Verlust der durchaus detaillierten Zeitangaben der historischen Journale wird schnellstmöglich durch eine entsprechende Verbesserung des TopicExplorers behoben.

 

Topic Modellierung historischer Texte

Die Halleschen Journale – Erschließung

Ausgehend von der Grundüberlegung, dass, um alle Beiträge und Inhalte zu überblicken informatische Verfahren zwingend benötigt werden, beginnen an dieser Stelle bereits die ersten Schwierigkeiten. Da die Quellen nicht in ihrer Gesamtheit als Volltexte vorliegen, muss eine Möglichkeiten gesucht und gefunden werden, die es ermöglicht, auch ohne umfassende Digitalisierungen und OCR-Bearbeitungen einen modellierbaren Korpus zu generieren. Da für die grundlegende Erschließung der Zeitungen und Zeitschriften alle Inhaltsverzeichnisse erfasste wurden / werden sollen, entstand die Idee bereits auf dieser Ebene den TopicExplorer zum Einsatz zu bringen. Die Aufnahme der detaillierten Inhaltsverzeichnisse erfolgte händisch und in mühevoller „Abschreibe-Arbeit“.

Auszug aus dem Inhaltsverzeichnis der Annalen der Physik, Halle 1806, 22. Band.

Alle Beiträge wurden strukturiert in einer relationalen Datenbank erfasst, die es ermöglicht, für jeden einzelnen Beitrag detaillierte bibliographische Informationen zu generieren; Autoren mit allen von ihnen publizierten Beiträgen zu erfassen, die Verlaufsgeschichte einzelner Journale zu rekonstruieren und vieles mehr. Aktuell weist die Datenbank rund 30.000 Beitragseinträge auf, die mit rund 1.800 Personen auf unterschiedlichen Ebenen verknüpft sind.

 

TopicExplorer und Vorarbeiten

Die Artikelüberschriften der aufgeklärten Journale sind häufig relativ umfangreich, so dass die Hoffnung besteht, dass eine Vielzahl der für den Gesamtbeitrag relevanten Schlagwörter bereits an dieser Stelle aufgefunden werden können. Der durchschnittliche Umfang der Beitragsüberschriften beträgt 64 Zeichen. Diese eher gering anmutende Zahl ergibt sich dabei hauptsächlich durch eine kleine Anzahl sehr stark strukturierter Zeitschriften. Eine besondere Schwierigkeit stellen die in Halle anscheinend beliebten biographischen Mitteilungen dar, die mit unterschiedlichen Schwerpunkten bspw. über das Leben (berühmter) Rechtsgelehrter, Mediziner, Naturkundler etc. berichten und deren Artikelüberschriften nur jeweils aus dem Vollständigen Namen der betrachteten Person bestehen.

Samlung von merkwürdigen Lebensbeschreibungen, Erster Theil, Halle 1754.

Ebenfalls problematisch sind die mehrmals wöchentlich erscheinenden Zeitungen, deren Beiträge als Überschrift meist nur den Ort der eingehenden Nachricht umfassen. Für diese Gruppen von Journalen müssen tiefergreifende Erschließungsmethoden gefunden werden, um sie gleichberechtigt in die Topic-Modellierung einbeziehen zu können. Im Unterschied dazu müssen und können die naturwissenschaftlichen Journale als positive Beispiele herangezogen werden. Ihre Beitragsüberschriften erreichen eine durchschnittliche Länge von 97 Zeichen und erklären in den meisten Fällen detailliert die Gegenstände der folgenden Betrachtungen.

Für die Arbeit mit dem TopicExplorer wurden die Artikelüberschriften um weitere Informationen ergänzt, die aus der bestehenden Datenbank abfragt wurden – dies betrifft: das Publikationsdatum, den Autor und den Titel des Journals in dem der jeweilige Beitrag erschien. Diese zusätzlichen Informationen werden bei der Themengenerierung nicht berücksichtigt, ermöglichen aber eine nachträgliche Zuordnung, bzw. SQL-Abfragen für verschiedene Dokumentenrangkings.

Nach einer relativ mühevollen Bereinigung der Wortlisten, die insbesondere durch zahlreiche Abkürzungen, Autoreninitialen und Ortsnamen erschwert wurde, liefern die ersten Versuche einer Topic-Modellierung durchaus vielversprechende Ergebnisse – und zugleich zahlreiche Hinweise auf Verbesserungsnotwendigkeiten in der Vorverarbeitung.

 

Zu überwindende Schwierigkeiten

Inhaltsverzeichnis der Observationvm Selectarvm Ad Rem Litterariam Spectantivm, Band 1, 1707.

Als spezifisches Problem bei der Betrachtung der ersten Ergebnisse erwies sich die Sprache. Eine nicht geringe Anzahl von Dokumenten beinhaltet lateinische oder französische Titelüberschriften. Diese wurden zwar gleichberechtigt in die Analyse einbezogen und entsprechend Themen zugeordnet, doch besteht noch keine Möglichkeit einer automatisierten Übersetzung. Daher wurden bspw. zwischen synonymen lateinischen Begriffen und deutschsprachigen Bezeichnungen keine Beziehungen hergestellt. Dies führt dazu, dass sich insbesondere die französischsprachigen Beiträge nahezu ausschließlich in eigenständigen Themen wiederfinden, ohne einen Bezug zu ähnlichen Themen deutschsprachiger Dokumente aufzuweisen. Diese Beobachtung lässt es als zwingend notwendig erscheinen, eine sprachliche Angleichung (Übersetzung) vorzulagern. In unserem Beispiel betrifft dies mindestens ein Zehntel der Dokumente.

Anders gelagerte Schwierigkeiten ergeben sich aus den variierenden Schreibweisen. In einzelnen Fällen verursachte bereits die Genitiv-Form Probleme (Christenthum/Christenthums). An dieser Stelle könnte es durchaus vielversprechend sein, den mittlerweile zur Verfügung stehenden Cascaded Analysis Broker für historische Texte anzuwenden, um eine Normierung der Schreibweisen vorzunehmen. Bei naturwissenschaftlichen Dokumenten war diese Problematik deutlich geringer ausgeprägt, da hier differierende Schreibweisen ein deutlich kleineres Spektrum einnehmen und sich bei zahlreichen fachwissenschaftlichen Begriffen eine Standardisierung bereits zu Mitte des 18. Jahrhunderts durchgesetzt zu haben scheint. Zudem löste die deutsche Sprache in den Naturwissenschaften das gelehrte Latein schneller und nachhaltiger ab als in anderen Bereichen.

 

Ergebnisse

Trotz der oben skizzierten Probleme ergeben sich in der Modellierung bereits sehr überzeugend erscheinende Themen. Insbesondere die naturwissenschaftlichen Themen überzeugen in ihrer sowohl zeitlichen, als auch inhaltlichen Ausprägung. Beispielsweise reflektieren die Themen 7, 14 und 10 unterschiedliche Ausprägungen naturwissenschaftlicher Versuche. Thema 7 (940 Beiträge) legt einen Schwerpunkt auf Elektrizität und Alessandro Volta, Thema 10 (999 Beiträge) auf Versuche zu Wärme/Temperatur, Flüssigkeiten und Gasen und Thema 14 (1020 Beiträge) auf Magnetismus und Galvanismus. Für alle diese Topics können die zeitlichen Verläufe der jeweils dahinterstehenden rund 3.000 Beiträge betrachtet werden.

Themen 7, 10 und 14

Ein zweiter thematischer Schwerpunkt der halleschen Journale liegt in historischen Abhandlungen (Themen 9, 13 und 27), wobei hier die Schwerpunkte zwischen Lebensbeschreibungen, Staatshistorie und Betrachtungen der Antike variieren. Alle drei Themen finden sich mit einer ähnlichen Virulenz in den Dokumenten repräsentiert, wenn auch im Vergleich mit den ‚Versuchsthemen‘ mit deutlich weniger Konjunkturen.

Themen 9, 13 und 27.

Die relativ erfolgreich erscheinenden halleschen Rezensionszeitschriften sind u.a. in den Themen 23, 20 und 6 repräsentiert. Eine inhaltliche Differenzierung erfolgt zwischen wissenschaftlichen Themen (Thema 23, 970 Beiträge), Poesie/schöner Literatur (Thema 20, 1.132 Beiträge) und Theologie/Religion (Thema 6, 1.149 Beiträge). In ihrer zeitlichen Repräsentanz offenbaren sich bei diesen Themen deutliche Unterschiede.

Thema 23,20 und 6.

Entgegen dem Erwartungshorizont spiegeln sich in der Topic-Modellieren keine klar religiös/theologisch dominierten Themen wider. Hinterfragt man innerhalb des Topic-Explorers dezidiert Begriffe, die einen religiösen Kontext implizieren (z. B. Religion, Gott, Theologie, Kirche, Glaube, Gebet, Predigt), wird nachvollziehbar, dass sich diese in einer Vielzahl von Themen wiederfinden und in unterschiedlichsten Kontexten verortet werden. Beschränkt man sich dabei nur auf die oben aufgeführten Begriffe, werden bereits 19 von 30 Themen abgedeckt.

 

Weitere Schritte

In der kontinuierlichen Anpassung, sowohl in der Vorbereitung der Dokumente als auch der Topic-Modellierung im TopicExplorer, um eine bessere Verarbeitung historischer Dokumente zu gewährleisten, liegt eine zentrale Aufgabe. Andererseits fokussiert das Projekt auf die Interpretation der gefunden Themen und einen Vergleich zwischen ihnen. Dafür sollen weitere zur Verfügung stehende Metadaten über die Netzwerkanalyse mit den identifizierten Themen in Bezug gesetzt werden.

Der zeitliche Rahmen

Das Projekt bewegt sich in der „Aufklärungsepoche“ – doch wie diese zeitlich eingrenzen? Dabei ist der Beginn dieser „Epoche“ im Projekt noch relativ einfach zu bestimmen. Im Januar des Jahres 1688 erscheint (noch mit Verlagsort Franckfurth und Leipzig, bei dem Buchhändler Moritz Georg Weidmann) der erste Band der von Christian Thomasius herausgegebenen und verfassten Zeitschrift:

Schertz- und ernsthaffter, vernünfftiger und einfältiger Gedancken über allerhand lustige und nützliche Bücher und Fragen„.

Schertz- und Ernsthaffter, Vernünfftiger und Einfältiger Gedanken, über allerhand Lustige und nützliche Bücher und Fragen, Deckblatt der Aprilausgabe 1688.

Die Märzausgabe führt als Verlagsort nur noch Leipzig und mit dem Monat April wechselt Thomasius‘ Zeitschrift nach Halle in den Verlag des Chur-Fürstlich Brandenburgischen Hoff- und Regierungs Buchdruckers, Christoph Salfelden.

Für die folgenden Jahrzehnte erfasst das Projekt alle Zeitungen und Zeitschriften , deren Verlagsort in Halle  (Hall in Sachsen, Halae, Halle im Magdeburgischen etc. – um nur einige der zahlreichen Synonyme aufzuführen) gefunden werden kann. Einige Journale erscheinen nur mit einer einzigen Ausgabe, andere unregelmäßig über mehrere Jahre und Jahrzehnte, wieder andere kontinuierlich über Jahrhunderte hinweg. Somit drängt sich die Frage nach dem „Ende“ der Aufklärungsepoche auf.

Obwohl in der Literaturwissenschaft das „Ende der Aufklärung“ meist um 1800 verortet wird, und auch in der halleschen Presselandschaft ein deutlicher Einbruch der Journalneugründungen um 1802 zu verzeichnen ist, reicht der Projektzeitraum aus unterschiedlichen Gründen bis zum Jahr 1815. Zum einen bringen die napoleonische Besatzung und die Befreiungskriege auch für die Journale vollkommen neue Herausforderungen mit sich, deren Bewältigungsstrategien sich stark unterscheiden. Einige Verleger in Halle stellen die Herausgabe von Zeitschriften und Zeitungen vollkommen ein. Zum einen da Zeitschriften nun ebenfalls als Luxusprodukte gelten, deren Absatz in Krisensituationen deutlich zurückgeht, zum anderen da mit der Schließung der Universität Halle im Jahr 1806 Herausgeber, Autoren und Leser verloren gehen und die Produktion auf Grund der gestiegenen Produktionskosten nicht mehr kostendeckend sein kann. Erstaunlicher Weise nutzt kein hallescher Verleger die Möglichkeit, den Wünschen des Publikums, nach aktuellen und zeitnahen Informationen zu entsprechen, sodass keine Verstärkung des Zeitungsmarktes in Halle zu beobachten ist – hier scheint die räumliche Nähe zu Leipzig ein stärkeres Engagement verhindert zu haben. Denn aktuelle Nachrichten gelangten weniger schnell nach Halle und ihre Publikation hätte keinesfalls gegen die Konkurrenz der Leipziger Nachrichtenblätter bestehen können.

Anzahl der jährlich in Halle begründeten Journale (1688-1815)

Andere Verleger hingegen prägen ihre inhaltlichen Schwerpunkte gerade in dieser Zeit stärker aus. Anstatt auf ein umfassendes Sortiment thematisch verschiedener Journale zu setzen, konzentrieren sie sich auf die Publikation fachlich herausragender Journale – in Halle überdauern vor allem naturkundliche, medizinische und staatswissenschaftliche Zeitschriften die Schließung der Universität.

Um die Reaktion auf elementare wirtschaftliche, politische und alltägliche Krisenphasen abbilden zu können, wurde das Ende der „Aufklärungsepoche“ bis zum Ende der napoleonischen Kriege 1815 ausgedehnt.

Deutsches Archiv für die Physiologie, Band 1, Heft 1, 1815.

Das letzte der 360 in Halle herausgegebenen Journale war die von Johann Friedrich Meckel begründete Zeitschrift: „Deutsches Archiv für die Physiologie„, die bis 1823 Bestand hatte.

 

 

 

 

 

 

Die halleschen Zeitungen und Zeitschriften der Aufklärungsepoche (1688-1815)

Im Rahmen eines am Interdisziplinären Zentrum für die Erforschung der Europäischen Aufklärung (IZEA) in  – verständlicher Weise – Halle an der Saale, begonnenen Projektes sollte zunächst ein Verzeichnis der in Halle periodisch erschienenen Druckwerke entstehen, um die Bedeutung der Universitätsstadt als Verlagsstandort, in unmittelbarer Nähe zur Messestadt Leipzig im 18. Jahrhundert zu verdeutlichen.

Durch die intensiver werdende Auseinandersetzung mit den halleschen Journalen drängten sich diese aber immer stärker selbst in den Vordergrund, wollten nicht nur verzeichnet, sondern auch gesichtet sein, nicht nur um- und beschrieben, sondern auch gelesen und in ihrer ganzen Bandbreite als herausragende literarische, kulturelle, wissenschaftliche, unterhaltende, belehrende und informierende Produkte wahrgenommen werden.

‚Der Gesellige‘ 2. Band, Halle bey Johann Justinus Gebauer 1764.

Der durchaus eigenständigen Dynamik der periodischen Presse während der Aufklärung folgend, wandelte sich das ursprünglich geplante ‚Handbuch der Halleschen Zeitungen und Zeitschriften‘ zu einem Projekt, dass noch weit über die zu Grunde liegenden Medien hinausgeht und nun die „Gesellschaftliche Wissensproduktion in der Aufklärung“ hinterfragen möchte.