Schlagwort-Archive: Hierarchie

Nutzung des TopicExplorers zu den halleschen Journalen

Der TopicExplorer zu den halleschen Journalen kann in einer eingeschränkten Prototypversion und unter Berücksichtigung der Tatsache, dass erst 290 von 360 Journalen eingepflegt wurden, bereits genutzt werden. Dennoch muss darauf hingewiesen werden, dass die Topic-Modellierung noch Schwachstellen aufweist, gleichzeitig aber sowohl die Vorverarbeitung als auch die Funktionsweise des TopicExplorers permanent überarbeitet, angepasst und verbessert werden. Vorhandene Schwierigkeiten (z.B. der Sprachmix innerhalb der Journale) sollen in den kommenden Testläufen überwunden werden.

Ausgehend von der gesamten Nutzeroberfläche werden im Folgenden einzelne Funktionsweisen erklärt.

Screenshot der Benutzungsoberfläche des TopicExplorers

Ein zentrales Anliegen des TopicExplorers besteht im ähnlichkeitsbasierten Layout der Themen.

Ähnlichkeitsbasiertes Layout der Themen.

Ein Algorithmus berechnet dafür ein hierarchisches Clustering der Themen, wobei jedes Thema ein Element auf der untersten Stufe der berechneten Hierarchie darstellt. Die dadurch erzeugte Themenreihenfolge wird als Regenbogenskala dargestellt. Die Farbe dient in dieser Umsetzung als visuelle Hash-Funktion, d.h. eine ähnliche Farbe weist auf ein ähnliches Thema hin. Die farbliche Zuordnung selbst bietet dem Nutzer Orientierung auf drei Ebenen:

1. der Themen,

2. für das Durchsuchen und Ordnen der Dokumente und

3. für die Wortzuordnung in den einzelnen Dokumenten.

Die Topics selbst werden durch Wortlisten umrissen, deren Wörter nach absteigender Wahrscheinlichkeit sortiert sind, so dass die häufigsten Wörter in einem Topic oben stehen. Diese Liste kann für jedes Thema vollständig durchgescrollt werden.

Durch das Klicken auf den Kopf einer Topic-Wortliste wird im zentralen Bereich der Benutzeroberfläche ein Dokumenten-Ranking geöffnet. Die dargestellten Links zu den Dokumenten sind absteigend nach der Anzahl der Wörter sortiert, die dem gewählten Topic zugeordnet sind. Für jedes Dokument werden neben dem Titel durch maximal vier farbige Kreise die wichtigsten Topics angezeigt.

Dokumente des Themas 0.

Fährt man mit dem Mauszeiger über die einzelnen Punkte erscheint die Nummer des entsprechenden Themas. Mittels Anklicken des Punktes verschiebt sind die untere Leiste zum entsprechenden Topic.

Mit Klick auf einen Dokumententitel öffnet sich die Vollansicht des Dokumentes.

Detailansicht eines Dokuments aus dem Thema 0.

An dieser Stelle kann zugleich eine Dokumentenprüfung erfolgen, da die Themenzuordnung einzelner Begriffe in einem Dokument durch farbige Unterstreichungen hervorgehoben wird. Auch in diesem Fall führt ein Klick auf die entsprechende Farbe zur Darstellung des Themas in der Themenübersicht. Weil häufige und seltene Wörter ebenso wie grammatische Funktionswörter nicht Teil der Eingabe des Topic-Modells sind, haben nicht alle Wörter eine Topic-Zuordnung. Eine Besonderheit der Anwendung auf das Gesamtkorpus der halleschen Zeitungen und Zeitschriften liegt in dem Versuch, zunächst ausschließlich mit den Artikelüberschriften, ergänzt um den Titel der Zeitschriften und wenn möglich den Namen der Autoren zu arbeiten.

Durch die integrierte Suchfunktion kann deutlich gemacht werden, dass Wörter in verschiedenen Kontexten benutzt werden. Diese Kontexte werden bei der Auto-Vervollständigung als eine Liste von Topics angezeigt, denen ein Wort in verschiedenen Dokumenten zugeordnet wurde. So ist der Wortstamm „Erzieh“ Teil von mehreren Topics.

Suchfunktion mit Auto-Vervollständigen.

Da eine Textanalyse immer verschiedene thematische Granularitäten erfordert, können im Topic-Explorer Topics interaktiv zusammengefasst und aufgeteilt werden. Auf diese Weise ist es für den Nutzer sehr einfach, innerhalb der Topic-Hierarchie, die schon für die Bestimmung der linearen Anordnung der Topics nach Wortähnlichkeit genutzt wurde, interaktiv zu navigieren .

Hierarische Themen – Ausgangssituation.

Fährt man mit dem Mauszeiger auf die Verbindungslinie zwischen Thema 7 und 11 wird in einer Vorschau der Themenzusammenführung angezeigt, welche Topics zusammengefasst würden, diese sind jetzt in der gleichen Farbe dargestellt, in diesem Fall würde auf Grund der hohen Ähnlichkeit auch Thema 14 mit eingeschlossen werden.

Hierarchische Themen – Vorschau.

Durch einen Klick auf die Vorschau wird die Zusammenführung bestätigt und es ergibt sich folgendes Bild:

Hierarchische Themen – Zusammenführung.

Der Effekt der Zusammenfassung wird sofort in den anderen Ansichten visualisiert, z. B. in der Darstellung der zeitlichen Entwicklung.

Durch einen Klick auf das Symbol  können die drei Themen in Einzelschritten wieder getrennt werden.

Da alle Zeitschriftenbeiträge mit einem Zeitstempel versehen sind, kann die zeitliche Entwicklung derTopics visualisiert werden. Ein Klick auf das Symbol  öffnet die entsprechende Ansicht. Das Beispiel zeigt die Evolution von Thema 14 im Umfeld der seit 1780 publizierten galvanischen Experimente und Versuche, deren Auswertung und zunehmende Verbreitung. Die verschiedenen Reaktionen werden durch die Topics kategorisiert. Die Grafik zeigt die zeitliche Entwicklung mit den jeweils wichtigen Wörtern für jeden Zeitabschnitt.

Zeitliche Entwicklung des Themas 14 mit Beispiel für die Anzeige zentraler Begriffe.

Problematisch an dieser Darstellung ist die Tatsache, dass der TopicExplorer in seiner Entwicklung für aktuelle Medien (Twitter, Facebook, Tageszeitungen etc.) angedacht war. Eine Anpassung in der Visualisierung an die historischen Zeiträume konnte – wenn auch als weiterer Fortschritt von zentraler Bedeutung – noch nicht erfolgen. Aktuell basiert der zeitliche Verlauf auf einer Umrechnung der Jahre zwischen 1688 und 1824 auf jeweils eine Kalenderwoche zwischen dem 1.1.2011 und dem 31.7.2015 die dadurch bedingten Ungenauigkeiten und der teilweise Verlust der durchaus detaillierten Zeitangaben der historischen Journale wird schnellstmöglich durch eine entsprechende Verbesserung des TopicExplorers behoben.