[in German] Arbeitsprozess der Themenanalyse in einem Korpus japanischer Blogartikel

In meiner Doktorarbeit (Institut für Politikwissenschaft & Japanologie / Martin-Luther-Universität Halle-Wittenberg) nutze ich den TopicExplorer als Werkzeug, um verschiedene Diskurse zu identifizieren, in denen der japanische Begriff jikosekinin („Selbstverantwortung“) vorkommt. Im Folgenden soll exemplarisch der Arbeitsvorgang bei der Identifikation und Interpretation eines Themas beschrieben werden. In der Darstellung des Arbeitsprozesses wird deutlich, welche zusätzlichen Informationen in der Benutzeroberfläche des TopicExplorers diese Arbeit erleichtern würden.

Der Begriff jikosekinin hat seit den 80er Jahren als Schlüsselwort des Neoliberalismus in Japan eine enorme Konjunktur erlebt (vgl. z.B. TAKIKAWA 2001:32). Heute ist er allgegenwärtig und wird oft dafür herangezogen, Benachteiligten die Schuld an ihrem Schicksal selbst zu geben. Im Jahr 2004 erlangte der japanische Begriff sogar international fragwürdige Berühmtheit, als drei Japaner im Irak als Geiseln genommen wurden und sich in Japan Stimmen erhoben, die unter dem Schlagwort jikosekinin forderten, die Geiseln ihrem Schicksal zu überlassen.

Im Dissertationsprojekt schließt sich die Analyse mit dem TopicExplorer an eine begriffsgeschichtliche Untersuchung an. Während ich im ersten Teil der Arbeit Etymologie und Begriffsetablierung anhand einer Quellenanalyse und ausgewählter Zeitungsartikel nachvollziehe, untersuche ich im zweiten Teil mit dem TopicExplorer einen Big Data Korpus japanischer Blogartikel. Dadurch erhoffe ich mir einen Zugang zu alltagssprachlichen Verwendungsbeispielen von jikosekinin, um eine Fokussierung auf “Höhenkammzitate” (REICHARDT 1985, vgl. MEYER 2014:26) zu vermeiden, zu der begriffsgeschichtliche Untersuchungen häufig tendieren.

Das Untersuchungskorpus umfasst ca. 27.000 Blogartikel, Blogartikel, die das Wort jikosekinin beinhalten und in den Jahren 2014 – 2017 auf japanischen Blogservern ins Internet gestellt wurden. Nach mehreren Versuchen mit Themenanzahlen von 50, 60, 70, 100 und 200 Themen wurde als Themenanzahl 60 gewählt.

Themenidentifikation und grundlegende Informationen

Abb. 1 : Themenwörter von Thema #20

Innerhalb der 60 generierten Themen[1], fällt ein Thema (#20) auf, das inhaltlich einen homogenen Diskurs zu indizieren scheint und im Zusammenhang mit jikosekinin bisher noch nicht untersucht wurde.

Die Themenwörter „Unfall“ (jiko), „Kernkraftwerk“ (genpatsu) und „Fukushima“ verweisen auf Diskussionen im Kontext der Folgen der Nuklearkatastrophe von Fukushima im Jahr 2011 (Abb.1). Weitere Themenwörter deuten bereits mögliche Inhalte der indizierten Blogartikel an, beispielsweise werden durch „Betrieb“ (kadō) wohl Texte über die Wiederinbetriebnahme (sai-kadō) der japanischen Kernkraftwertwerke gekennzeichnet und „Evakuierung“ (hinan) verweist auf die Diskussion um die aus der Umgebung des havarierten Kernkraftwerkes Fukushima Daiichi evakuierten Menschen, von denen im Untersuchungszeitraum viele von der Regierung zur Rückkehr aufgefordert wurden.

Die benachbarten Themen (#5 bzw. #27) führen zwar auch das häufige Themenwort „Unfall“ (jiko), allerdings zeigen die weiteren Themenwörter, dass es darin um Verkehrsunfälle (#5) bzw. Sportunfälle, etwa beim Skifahren und Bergsteigen (#27), zu gehen scheint (Abb.2).

Abb. 2 : Benachbarte Themen von Thema #20

Wie eine Abfrage über die Suchzeile belegt, kommt das Wort „Fukushima“ im gesamten Korpus lediglich in Thema #20 vor (Abb.3). Der Diskurs um „Selbstverantwortung“ im Kontext der Nuklearkatastrophe von Fukushima scheint also weitgehend in diesem Thema abgegriffen zu werden. Für eine nähere Analyse dieses Diskurses verspricht Thema #20 demnach den besten Zugang zu relevanten Texten.

Abb. 3 : Themenzuordnung des Begriffes “Fukushima” in der Suchleiste

Interpretation der Zeitreihe

Im Vergleich zur Zeitreihe des Durchschnitts aller Themen (schwarz) zeigt die Zeitreihe von Thema #20 (grün) einige auffällige Anstiege (Abb.4). Man kann vermuten, dass externe Ereignisse zu diesen Anstiegen geführt haben.

Abb. 4 : Zeitreihen von Thema #20 (grün) und des Durchschnitts aller Themen (schwarz)

Hinweise auf die externen Ereignisse lassen sich durch die häufigsten
Themenwörter von Thema #20 in den jeweiligen Wochen gewinnen (Abb. 5).

Abb. 5 : Die häufigsten Themenwörter von Thema #20 in der Woche vom 10. – 16. August 2015

 

Ausgehend von den Themenwörtern der Zeitreihe von Thema #20 im August 2015, März 2016 und März 2017, lassen sich die unten angeführten Thesen aufstellen (dabei muss stets beachtet werden, dass sich sämtliche Thesen lediglich auf Blogartikel beziehen, die den Begriff jikosekinin beinhalten).

  1. Woche (vgl. Abb.5): 10. – 16. August 2015. 871 Token. Themenwörter: „Kernkraftwerk“ (genpatsu), „Betrieb“ (kadō), „Regulierung“ (kisei), „Unfall“ (jiko). These: Die Wiederinbetriebnahme der japanischen Kernkraftwerke (genpatsu) und derer „Regulierungen“ (kisei) hat zu Diskussionen im Internet geführt.
  2. Woche: 14. – 20. März 2016. 1130 Token. Themenwörter: „Krebs“ (gan), „Schilddrüse“ (kōjōsen), „Unfall“ (jiko), „Fukushima“. These: In der Folge der Nuklearkatastrophe von Fukushima wurde eine erhöhte Anzahl von Erkrankungen an Schilddrüsenkrebs festgestellt. Die Berichterstattung darüber hat auch im Internet zu Diskussionen geführt.
  3. Woche: 6.-12. März 2017. 946 Token. Themenwörter: „Evakuierung“ (hinan), „Fukushima“, „Kernkraft“ (genpatsu), „Unfall“ (jiko). These: In dieser Woche hat eine Kontroverse um die Rückkehr der evakuierten Einwohner der Regionen um das havarierte Kernkraftwerk Fukushima Daiichi im Internet stattgefunden.

Überprüfung der durch die Zeitreihe indizierten Inhalte

Im Folgenden werden die an den drei genannten Zeitpunkten veröffentlichten Dokumente einzeln untersucht, um die anhand der Themenwörter aufgestellten Thesen zu überprüfen bzw. zu modifizieren.

(1) Woche: 10. – 16. August 2015.

These: Die Wiederinbetriebnahme der japanischen Kernkraftwerke (genpatsu) und derer „Regulierungen“ (kisei) hat zu Diskussionen im Internet geführt.

Abbildung 6 zeigt die Dokumente nach Häufigkeit der Thementoken für die erste untersuchte Woche vom 10. – 16. August 2015. Neben den Artikelüberschriften werden pro Dokument auch die vier häufigsten Themen im Dokument farblich dargestellt.

Abb. 6 : Repräsentative Dokumente von Thema #20 in der Woche vom 16.-20. August 2015 im TopicExplorer

Hier ist bereits auffällig, dass das durch einen grünen Punkt indizierte Thema #20 zwar in den ersten sechs Dokumenten am häufigsten auftritt, danach aber nur noch vereinzelt unter den häufigsten vier Themen der Dokumente zu finden ist und ab dem zehnten Dokument gar nicht mehr in den Markierungen auftaucht (die grünen Punkte der Dokumente an 10. bis 15. Stelle verweisen auf andere Themen, die eine ähnliche Farbe haben). Dieser Umstand legt die Vermutung nahe, dass der Anstieg der Zeitreihe von Thema #20 in der betreffenden Woche lediglich durch einige wenige Dokumente geprägt wurde.

Um diese Vermutung zu überprüfen, muss untersucht werden, wie viele Token von Thema #20 tatsächlich in den jeweiligen Dokumenten auftauchen. Weil diese Information in der Benutzeroberfläche des TopicExplorer momentan noch nicht abrufbar ist, bleiben hierfür zwei Möglichkeiten: Entweder man zählt Token von Thema #20 in den verlinkten Dokumenten aus oder man fragt die Token-Anzahlen über die Datenbank ab. Hier wird der zweite Weg vorgestellt.

Auf Github sind bereits verschiedene SQL-Abfragen für den TopicExplorer aufgelistet[2]. Über die folgende Abfrage (eine Vereinfachung der „SQL Anfrage für verschiedene Dokument-Rankings für ein gegebenes Topic“) lassen sich die Token-Anzahlen pro Dokument in einem frei wählbaren Zeitraum auf einen Blick erkennen.


select
DOCUMENT.DOCUMENT_ID
, DOCUMENT_TOPIC.TOPIC_ID
, NUMBER_OF_TOKEN_TOPIC_IN_DOCUMENT
, TEXT$TITLE
, DOCUMENT.LINK$URL
, orgTable_meta.DOCUMENT_DATE
from DOCUMENT
join DOCUMENT_TOPIC on (DOCUMENT.DOCUMENT_ID=DOCUMENT_TOPIC.DOCUMENT_ID)
join TOPIC t on (DOCUMENT_TOPIC.TOPIC_ID=t.TOPIC_ID)
join orgTable_meta on (orgTable_meta.DOCUMENT_ID=DOCUMENT.DOCUMENT_ID)
where
-- Ausgangsthema
t.TOPIC_ID=20
-- Einschränkung auf Zeitraum
and DOCUMENT.TIME$TIME_STAMP between UNIX_TIMESTAMP('2015-08-10') and UNIX_TIMESTAMP('2015-08-16')
ORDER BY
NUMBER_OF_TOKEN_TOPIC_IN_DOCUMENT DESC
LIMIT 50
;

In Tabelle 1 sind die ersten zehn Ergebnisse dieser Abfrage für die untersuchte Woche gelistet:

Tab. 1 : Dokumente nach Häufigkeit der Token von Thema #20 in der Woche vom 16. – 20. August (SQL-Abfrage)

Vor allem die Spalte NUMBER_OF_TOKEN_TOPIC_IN_DOCUMENT ist hier interessant, denn sie zeigt, wie viele Token eines Themas ein Dokument beinhaltet. Wie aus Tabelle 1 hervorgeht, stammen 431 Token von Thema #20 aus dem ersten Dokument – das ist knapp die Hälfte aller 871 Token, die in dieser Woche zu Thema #20 publiziert wurden. Die Anzahl der Token in den folgenden Dokumenten fällt rapide ab: Während das zweite Dokument noch 127 Token von Thema #20 beinhaltet, sind es im achten Dokument nur noch 4 Token. Für eine Erklärung des Anstiegs der Zeitreihe von Thema #20 in der besagten Woche ist das achte Dokument also kaum noch relevant.

Inhaltlich geht es in dem ersten Dokument wie vermutet um die Wiederinbetriebnahme eines Kernkraftwerkes: Der Autor kritisiert vehement die Wiederinbetriebnahme des Kernkraftwerkes Sendai (川内) in der Präfektur Kagoshima, das im August 2015 als erstes Kernkraftwerk in Japan nach der Nuklearkatastrophe von Fukushima wieder ans Netz gegangen ist. In seinem Artikel zitiert der Blogger auch einen Bericht über eine Versammlung, bei der die neuen Regulierungen (kisei) erklärt wurden (Dokument #3412249). Auch der Autor des zweiten Dokuments (Dokument #3412484) thematisiert und kritisiert die Wiederinbetriebnahme des Kernkraftwerkes Sendai, ebenso wie Autoren der folgenden fünf Dokumente. Danach ändern sich die Inhalte der Dokumente. Eine SQL-Abfrage bestätigt, dass der Name des Kernkraftwerkes Sendai tatsächlich nur in sieben Dokumenten dieser Woche vorkommt.

Somit kann die anhand der Themenwörter aufgestellte These wie folgt modifiziert werden:

Die Wiederinbetriebnahme der japanischen Kernkraftwerke [bzw. des Kernkraftwerkes Sendai in Kagoshima] und deren „Regulierungen“ [bzw. den neuen Regulierungen für die Sicherheit der Kernkraftwerke nach der Nuklearkatastrophe von Fukushima] hat zu Diskussionen im Internet geführt [bzw. wurde in 7 Dokumenten im Korpus die Wiederinbetriebnahme des Kernkraftwerkes Sendai kritisiert].

Allerdings ist der auffällige Anstieg in der Zeitreihe vor allem auf das erste, lange Dokument zurückzuführen, sodass das Ausmaß der Diskussionen nicht so deutlich ist, wie es zunächst in der Zeitreihe wirkt.

(2) Woche: 14. – 20. März 2016

These: In der Folge der Nuklearkatastrophe von Fukushima wurde eine erhöhte Anzahl von Erkrankungen an Schilddrüsenkrebs festgestellt. Die Berichterstattung darüber hat auch im Internet zu Diskussionen geführt.

Auch für die Woche vom 14. – 20. März 2016 zeigt die SQL-Abfrage, dass der Anstieg in der Zeitreihe weitgehend auf die ersten drei Dokumente zurückzuführen ist, die zusammen 961 von den insgesamt 1130 Token des Themas #20 dieser Woche ausmachen (Tab. 2).

Tab. 2 : Dokumente nach Häufigkeit der Token von Thema #20 in der Woche vom 14.-20. März 2016 (SQL-Abfrage)

Der erste Blogartikel greift das Programm Hōdō Stēshon des Fernsehsenders Terebi Asahi auf, in dem berichtet wurde, dass vier Jahre nach der Nuklearkatastrophe bei 167 Einwohnern der Präfektur Fukushima, die zum Zeitpunkt der Katastrophe 18 Jahre oder jünger waren, Schilddrüsenkrebs diagnostiziert wurde. Diese Rate im Vergleich zur Gesamtbevölkerung sei 500 mal höher als normalerweise. Die Bloggerin kritisiert, dass die Regierung und Atomkonzerne das Ausmaß der Katastrophe verheimlichen würden, indem sie unter anderem behaupteten, eine Krebserkrankung habe nicht notwendigerweise einen Einfluss auf die Lebenserwartung (Dokument #2059065). Auch das zweite und dritte Dokument beziehen sich auf das Fernsehprogramm, stellen jedoch in weiten Teilen Duplikate desselben Artikels des Online-Magazins lite-ra dar (Dokument #1609874). Der Autor des Artikels kritisiert u.a. die Aussagen der Experten im Fernsehprogramm von Terebi Asahi, die in Interviews behaupteten, dass die Strahlung in Fukushima im Vergleich zu Tschernobyl gering gewesen sei und man daher nicht von einem Zusammenhang zwischen der Strahlung und dem Auftreten von Schilddrüsenkrebs ausgehe (#1609874).

Allerdings sind die ersten drei Dokumente die einzigen im Korpus, die auf das Fernsehprogramm und das Auftreten von Schilddrüsenkrebs in dieser Woche Bezug nehmen. Die These muss also wie folgt modizifiert werden:

In der Folge [vier Jahre nach] der Nuklearkatastrophe von Fukushima wurde eine erhöhte Anzahl von Erkrankungen an Schilddrüsenkrebs [bei Kindern und Jugendlichen, die zum Zeitpunkt der Katastrophe unter 18 Jahre alt waren] festgestellt. Die Berichterstattung darüber [im Fernsehprogramm von Terebi Asahi und im Online-Magazin lite-ra] hat auch im Internet zu Diskussionen geführt wurde auf drei Blogs angesprochen bzw. kopiert.

(3) Woche: 6.-12. März 2017

These: In dieser Woche hat eine Kontroverse um die Rückkehr der evakuierten Einwohner der Regionen um das havarierte Kernkraftwerk Fukushima Daiichi im Internet stattgefunden.

 Wie die SQL-Abfrage (Tabelle 3) zeigt, verteilen sich die Token, die zum Anstieg des Themas in dieser Woche beigetragen haben, auf mehr Dokumente als in den zuvor untersuchten Wochen. Die Summe der Token von Thema #20 in den ersten zehn Dokumenten dieser Woche beträgt 831 und somit knapp 90 Prozent aller Thementoken in dieser Woche.

Tab. 3 : Dokumente nach Häufigkeit der Token von Thema #20 in der Woche vom 6. – 12. März 2017 (SQL-Abfrage)

Die Inhalte dieser Dokumente sind heterogener als in den beiden zuvor untersuchten Wochen. Die Artikel greifen zwar alle die Situation der Evakuierten aus Fukushima auf, zitieren dabei aber unterschiedliche Nachrichtenquellen, beispielsweise die öffentlich-rechtliche Rundfunkanstalt NHK (Dokument #2854129), die Zeitungen Tokyo Shinbun (Dokument #2854237) und Mainichi Shinbun (Dokument #2854237). Die breite mediale Berichterstattung hat in dieser Woche kann darauf zurückgeführt werden, dass sich am 11. März 2017 die Katastrophe vom 11.März 2016 zum sechsten Mal gejährt hat.

Die These (3) kann wie folgt modizifiert werden

  • In dieser Woche hat eine Kontroverse um in den Medien anlässlich des 6. Jahrestags der Dreifachkatastrophe eine breit angelegte Berichterstattung über die Situation die Rückkehr der evakuierten Einwohner der Regionen um das havarierte Kernkraftwerk Fukushima Daiichi im Internet stattgefunden, die auch auf japanischen Blogs aufgegriffen wurde.

Fazit

Der explorative Ansatz in der Analyse des Blogkorpus mit dem TopicExplorer hat zur Identifikation eines Themas geführt, in dem “Selbstverantwortung” (jikosekinin) im Kontext der Nuklearkatastrophe von Fukushima und ihrer Folgen diskutiert wird. Die Themenwörter sowie die Funktionen der Suchleiste, der Vergleich mit den benachbarten Themen und die quantitativen bzw. qualitativen Informationen der Zeitreihe haben interessante Informationen für die Interpretation des Themas geliefert.

Es hat sich jedoch gezeigt, dass die Verläufe der Zeitreihe nur mit großer Vorsicht zu interpretieren sind. So ließen sich auf den ersten Blick frappierende Anstiege der Zeitreihe in allen Fällen auf eine begrenzte Anzahl von Dokumenten zurückführen. Auch wenn diese Dokumente hier meist auf externe Ereignisse Bezug nehmen und somit durchaus interessante Diskurspositionen widergeben ist das Ausmaß dieses Diskurses viel kleiner, als es in der Zeitreihe vermittelt wird. So ist beispielsweise fragwürdig, ob man bei drei Dokumenten (Woche 14.-20.3.2016), von denen zwei Duplikate darstellen, überhaupt von einem „Diskurs“ sprechen kann.

Folglich sollten Informationen über die Token-Anzahl eines Themas pro Dokument bei der Untersuchung unbedingt abgefragt werden. Für die Weiterentwicklung des TopicExplorers wäre es sinnvoll, wenn diese Informationen auch über die Benutzeroberfläche verfügbar gemacht werden könnten und nicht über eine externe SQL-Abfrage generiert werden müssten.

Quellen:

[1] TopicExplorer: SEKININ_JIKO_NO_DISCLAIM UP_1

[2] Github: SQL Anfrage für verschiedene Dokument-Rankings für ein gegebenes Topic

zitierte Sekundärliteratur:

TAKIKAWA Hirohide (2001): “Jiko-kettei to jikosekinin no aida – hō-tetsugaku-teki kōsatsu” [Zwischen eigener Entscheidung und Eigenverantwortung – rechtsphilosophische Überlegungen], in Tokushū 2 `jikosekinin’ ga wakaru! — Kiso-hōgaku de yomitoku `daikaikaku’ jidai no kī-konseputo [2. Sonderausgabe: “Eigenverantwortung” verstehen! Das Schlüsselkonzept des Zeitalters der “Großen Reformen” mit grundlegenden Rechtswissenschaften herauslesen]. Tokyo: NIPPON HYORON SHA CO.

REICHARDT, Rolf (1985): “Einleitung”, in Rolf Reichardt et al. (Hrsg.): Handbuch politisch-sozialer Grundbegriffe in Frankreich 1680-1820, Heft 1/2. München: R. Oldenburg.

MEYER, Harald (2014): “Begriffsgeschichtliche Forschungsdesiderata für den Bereich der Ostasienwissenschaften: Von der monokulturellen, monodiszipinären Historischen Semantik zu einer transkulturellen, interdisziplinären kulturhistorischen Semantik”, in: Harald Meyer (Hrsg.): Begriffsgeschichten aus den Ostasienwissenschaften: Fallstudien zur Begriffsprägung im Japanischen, Chinesischen und Koreanischen. München: IUDICIUM.