DH-Handbuch/Tools

Aus Handbuch.io

<<<Zurück
Lizenzen
Inhaltsverzeichnis Weiter>>>
Infrastruktur


Vielfalt digitaler Methoden und Werkzeuge

Ein großer Vorteil digital gespeicherter Daten liegt darin, dass diese nun am Computer durchsucht, visualisiert und analysiert werden können. Hierfür steht eine Vielzahl speziell entwickelter Untersuchungsmethoden und entsprechender Software-Werkzeuge zur Verfügung, die ein breites Spektrum an geisteswissenschaftlichen Disziplinen abdecken und teilweise sehr unterschiedliche Anforderungen an das technische Vorwissen der AnwenderInnen stellen.

Eine Übersicht über digitale Werkzeuge, die sich für bestimmte geisteswissenschaftliche Fragestellungen eignen, wurde in Digital Research Infrastructure for the Arts and Humanities (DARIAH) [1] sowie im Digital Research Tools (DIRT) -Directory [2] zusammengetragen. Beide Übersichten sind online zugänglich. Im folgenden werden die Möglichkeiten digitaler Visualisierungs- und Analysewerkzeuge beispielhaft anhand der Raum-Zeit-Visualisierung im GeoBrowser und der Stilometrischen Textanalyse mit dem Stylo-Paket vorgestellt werden.

Raum-Zeit Visualisierung

Gerade große Datenmengen lassen sich gut durch digitale Werkzeuge erschliessen und durch Visualisierungen analysieren. Auf diese Weise geraten auch nicht unmittelbar evidente, strukturelle und inhaltliche Zusammenhänge in den Blick. Ein Beispiel für Raum-Zeit Visualisierung in den Digital Humanities ist der DARIAH-DE Geo-Browser.[3]

„Unter der Visualisierung von Daten versteht man in den Digital Humanities einen computergestützten Prozess, mit dessen Hilfe geistes- und kulturwissenschaftliche Daten so dargestellt und analysiert werden können, dass eine visuelle Repräsentation der inhärenten kontextualen bzw. inhaltlichen Zusammenhänge entsteht. Auf diese Weise können insbesondere größere Daten- und Quellenmengen analysiert werden, die von einzelnen ForscherInnen mit klassischen, nicht-digitalen Methoden nicht oder allenfalls nur mit erheblichem Zeit- und Ressourcenaufwand durchgeführt werden könnten.“

Kollatz, Thomas; Schmunk, Stefan: Datenvisualisierung: Geo-Browser und DigiVoy

DARIAH-DE Geo-Browser

Abbildung 5.1: DARIAH-DE Geo-Browser – Visualisierung von Grabmalen mit Symbolen http://steinheim-institut.de/cgi-bin/epidat

"Der Geo-Browser[4] vereint drei korrelierende Elemente: eine Karte, eine Zeitleiste sowie die Dokumentation der visualisierten Datengrundlage. Bei den Karten kann interaktiv zwischen frei wählbaren zeitgenössischen und mehreren historisierenden Karten gewählt werden. Zudem besteht die Möglichkeit, eigenes georeferenziertes Kartenmaterial einzubinden.

Das im Geo-Browser hinterlegte Standard-Kartenmaterial deckt einen Zeitraum von über 2.000 Jahren ab, sodass analog zur Periode der Datengrundlage meist eine entsprechende historisierende Karte zugeschaltet werden kann. Datensets aus dem beginnenden 20. Jahrhundert etwa können auf dem entsprechenden historisierenden Kartenmaterial mit der flächen- und grenzgetreuen Staatenwelt am Vorabend des Ersten Weltkrieges dargestellt werden. Um die Vielzahl der Einzelorte bzw. der entsprechenden Datenmengen zu strukturieren, werden bei der Visualisierung im Geo-Browser Einzeldaten nach Dichte und Quantität zu regionalen Häufungen („heaps“) akkumuliert.

Die zeitliche und quantitative Dimension des Gesamtdatenbestandes je aktueller Auswahl wird in einem Graph auf der Zeitleiste dargestellt. Wird ein Punkt auf der Karte angesteuert, werden die entsprechenden Punkte der Zeitleiste sowie die Dokumentationsfelder hervorgehoben. Wird ein Zeitpunkt oder eine Zeitspanne auf der Zeitleiste ausgewählt, diese bewegt oder animiert, werden stets die korrelierenden Georeferenzen und Dokumentationsfelder hervorgehoben […] Jederzeit kann aus dem ausgewählten und markierten Zwischenergebnis ein neues Datensample generiert werden – etwa, um Entwicklungen in unterschiedlichen Zeiträumen oder Regionen miteinander zu vergleichen. Zur lokalen Weiterverarbeitung oder als Grundlage weiterer Visualisierungsschritte kann das Datenset auch […] exportiert werden" (Kollatz/Schmunk S. 173)


DARIAH-DE Datasheet Editor

Abbildung 5.2: DARIAH-DE Datasheet-Editor http://geobrowser.de.dariah.eu/beta6/edit/

"Der Datasheet-Editor[5] bietet NutzerInnen zwei Optionen, eigene Daten für die Visualisierung im Geo-Browser aufzubereiten: zum einen den Import und die anschließende Anreicherung bestehender CSV-Tabellen, zum anderen die Direkteingabe raum- und zeitbezogener Daten.

In der Regel werden die Datensätze direkt in den von TextGrid und DARIAH-DE gemeinsam genutzen DARIAH-DE-Storage überführt, gesichert und auch dort verwaltet – unabhängig davon, ob sie in den Datasheet-Editor importiert oder von Anfang an darin erstellt wurden. […] Die Option zur Direkteingabe der Daten ist sehr einfach gehalten; erforderlich sind lediglich Orts- und Zeitangaben. Anschließend werden Geolokalisierungen (Längen- und Breitenangaben) unter Verwendung des Getty Thesaurus of Geographic Names (TGN), Open Geo Names (OGN) und/oder Open Street Maps (OSM) (semi)automatisch ergänzt – ein Verfahren, das nicht nur Zeit spart, sondern bei dem die Ortsdaten zugleich mit den fehlenden Längen- und Breitenangaben und den entsprechenden eindeutigen Identifikatoren der Vokabulare angereichert werden.

Anschließend können die im Datasheet-Editor angereicherten Daten nicht nur im Geo-Browser visualisiert und analysiert, sondern auch in weiteren Anwendungen nachgenutzt werden. Die Visualisierung direkt aus dem Datasheet-Editor heraus ermöglicht die Direktkontrolle auf den Karten des Geo-Browsers. Sollten Orte bei der automatischen Georeferenzierung falsch zugeordnet werden – wie etwa bei identischen Ortsnamen in unterschiedlichen Ländern oder Regionen (z.B. Paris/Texas und Paris/Frankreich; Frankfurt am Main und an der Oder) –, kann dies in der Nachbearbeitung leicht korrigiert werden, nämlich wiederum unter Zuhilfenahme der eingebunden Thesauri. Alternativorte werden in einem Drop-down-Menü angezeigt, aus denen dann die korrekte Ortsangabe samt Koordinaten und Identifikator übernommen werden kann.

Zur Optimierung des Zugriffs und der Skalierbarkeit bei der Verarbeitung von größeren Datenmengen wird bislang auf einen TGN-Dump zugegriffen, der von TextGrid und DARIAH-DE gehostet wird. Im ersten Quartal 2015 wird dies umgestellt und eine seit Sommer 2014 zugängliche Schnittstelle des TGN direkt abgefragt. Dies ermöglicht die Direktkontrolle auf den Karten des Geo-Browsers. Sollten Orte bei der automatischen Georeferenzierung falsch zugeordnet werden – wie etwa bei identischen Ortsnamen in unterschiedlichen Ländern oder Regionen […], kann dies in der Nachbearbeitung leicht korrigiert werden, nämlich wiederum unter Zuhilfenahme der eingebunden Thesauri. Alternativorte werden in einem Drop-down-Menü angezeigt, aus denen dann die korrekte Ortsangabe samt Koordinaten und Identifikator übernommen werden kann." (Kollatz/Schmunk S. 171f.)

Stilometrische Textanalyse

Ein anderes großes Arbeitsfeld, dass sich mit der fortschreitenden Digitalisierung eröffnet, ist die computergestützte, quantitative Analyse digitalisierter literarischer Texte. Hier befinden sich eine ganze Reihe orginär digitaler Forschungsmethoden in der Entwicklung, die nun nicht mehr der Beschleunigung oder Erleichterung von Vorgehensweisen dienen, die schon lange vorher auch ohne die Hilfe eines Computers genutzt praktiziert wurden. Neben so hilfreichen Funktionen wie einer Volltextsuche, die durch die digitale Archivierungsform möglich werden, können literarische Texte nun auch mit empirisch-statistischen Verfahren untersucht werden.

Diese erlauben prinzipiell die Berücksichtigung einer weitaus größere Menge von textbasierten Daten, als man sie sonst durch Lesen oder Recherchieren erfassen könnte, und vor allem eröffnen sie einen schnellen Blick auf die Dimensionen des Forschungsgegenstandes, die bisher kaum erfassbar waren, womit das klassische Methodenrepertoire der Philologie durch gänzlich neue Verfahren ergänzt werden kann.

Eine der häufige Anwendung der computergestützten Textanalyse in der Forschungspraxis ist die Zuschreibung eines Textes zu einem bestimmten Autor mit Hilfe der Stilometrie. Die Stilometrie ist ein Set statistischer Verfahren, die es erlauben, stilistische Unterschiede sichtbar und auch messbar zu machen. Sie ermöglichen es, den Stil verschiedener Autoren zu vergleichen, anonyme oder undatierte Texte einem Autor oder einer Epoche zuzuordnen oder spezifische Eigenschaften innerhalb einer Gattung herauszustellen. Länger etablierte Methoden in diesem Bereich sind die Principal Component Analysis (PCA) und die Messung stilistischer Distanzen durch Textabstandsmaße.

Wie funktioniert Stilometrie?

Die stilometrische Forschung begann mit der Beobachtung, dass AutorInnen bestimmte Gewohnheiten und Vorlieben bei der Wahl ihres Vokabulars haben. Diese individuellen Vorlieben zeigen sich schon in den häufigsten Funktionswörtern, wie "und", "der" und "die". Ordnet man alle Wörter, die in einem Text, oder in einem ganzen Textkorpus vorkommen nach ihrer Häufigkeit, so reicht oft schon die Berücksichtigung der Häufigkeiten der ersten 100 Wörter in dieser Liste, um stilistische Unterschiede zwischen Autoren herauszuarbeiten zu erkennen.

Je nach Fragestellung kann aber auch die Berücksichtigung anderer Eigenschaften der zu untersuchenden Texte sinnvoll sein, z.B. Satzlängen, die Häufigkeiten von Wortgruppen, von bestimmten grammatischen Konstruktionen oder von seltenen Inhaltswörtern. Diese Eigenschaften eines Textes, die einer Analyse zu Grunde liegen, bezeichnet man als Features. Grundsätzlich kann fast jede Eigenschaft eines Textes als Feature in der Stilometrie zum Einsatz kommen – vorausgesetzt sie ist messbar und erlaubt es, jedem Text einen eindeutigen Wert zuzuordnen. In der Praxis, gerade bei der Autorenschaftsattribution, haben sich als die gängigsten Features tatsächlich die Häufigkeiten der häufigsten Wörter etabliert.

Aber wie erkennt man nun relevante Unterschiede in einer Vielzahl von Features, z.B. in zwei Reihen von jeweils 100 Worthäufigkeiten? Der, auch in der Stilometrie übliche Weg, in einer Menge von Informationen relevante Muster zu finden ist die Reduktion auf ein vereinfachendes Modell. Für die Stilanalyse werden einzelne Texte als Datenpunkte in einem mehrdimensionalen Raum modelliert. Die Dimensionen bzw. die Achsen des Koordinatensystems sind in diesem Modell die Features, die Position eines Punktes, d.h. eines Textes auf einer bestimmten Achse entspricht dem Wert, den der Text für dieses Feature hat, also z.B. der Häufigkeit, mit der das entsprechende Wort in diesem Text vorkommt. Das heißt aber nun, dass ein Textkorpus, wenn nur die 100 häufigsten Wörter als Features berücksichtigt werden, als Wolke von Punkten in einem Koordinatensystem mit 100 Dimensionen modelliert wird! Gleichzeitig lassen sich aber nur höchstens 3 Dimensionen sinnvoll graphisch abbilden. Wie soll also dieses "vereinfachende" Modell helfen, relevante Muster zu erkennen? Ein etabliertes mathematisches Verfahren, mit dieser Art von Datenmodell umzugehen ist die Principal Component Analysis. Sie ist auch eines der ersten Verfahren, die in der quantitativen Textanalyse eingesetzt wurden.

Strukturen erkennen im hochdimensionalen Raum: Die Principal Component Analysis

Abbildung 5.3: Vereinfachte Darstellung einer PCA auf nur zwei Dimensionen. Bei gleichzeitiger Betrachtung alle (zwei) Dimensionen sind hier deutlich zwei unterscheibare Gruppen zu erkennen. Reduziert auf eine einzige Dimension, X oder Y, zeigt sich in den Daten aber keine bimodale Verteilung; die Gruppen lassen sich nicht mehr unterscheiden. Ebenso kann es in einem Datensatz mit 100 oder mehr Dimensionen schwierig werden, jene Dimensionen (oder Kombinationen von Dimensionen) auszumachen, in denen Unterschiede deutlich werden. Die Achsen der beiden Principal Components, die sich für diesen Datensatz berechnen lassen, sind hingegen an die Varianzverteilung der Datenpunkte angepasst. Aus DARIAH-DE Report 5.2.3: Stand der Forschung in der Textanalyse.

Die PCA wurde erstmals von Karl Pearson[6] und Harold Hotelling[7] beschrieben. Sie erlaubt es, in einem hochdimensionalen Datensatz eine Betrachtungsebene zu finden, in der sich möglichst viel von der Varianz der Daten visuell erfassen lässt.

Abbildung 5.4: Entlang der neu berechneten Achse PC1 verläuft die Dichtekurve bimodal. Nun wird der Unterschied zwischen den beiden Gruppen schon in einer einzigen Dimension sichtbar. Aus DARIAH-DE Report 5.2.3: Stand der Forschung in der Textanalyse.

Hierfür werden die Dimensionen der Daten mit Hilfe der sog. Singulärwertzerlegung in ein neues Set von Variablen, die Principal Components (PC), transformiert. Diese Principal Components kann man als Achsen eines alternativen Koordinatensystems verstehen, in dem die selben Datenpunkte in der selben Anordnung aufgetragen sind. Die erste Achse dieses neuen Bezugsystems (PC1) führt exakt durch die Datenpunkte in Richtung ihrer größten Ausdehnung, sie beschreibt also die größte Varianz der Daten. Die weiteren Achsen (PC2 bis PCn) repräsentieren andere neue, orthogonal zur PC1 verlaufenden Achsen in Reihenfolge der Varianz, die der Datensatz in diesen Dimensionen jeweils hat (Abb. 5.3). Folglich kann diese Technik eingesetzt werden, um aus einem Datensatz mit beliebig vielen Dimensionen eine zweidimensionale Darstellung (mit PC1 und PC2 als X- bzw. Y-Achse) zu erzeugen, die exakt diejenige Betrachtungsebene zeigt, in der der größte Teil der Datenvarianz zu sehen ist und oftmals auch die Unterschiede zwischen Gruppen von Punkten am besten herausgestellt werden (Abb. 5.4).

Dieses rechnerisch aufwendige Verfahren fand mit Aufkommen des Computers zunehmend mehr Berücksichtigung in unterschiedlichen Bereichen wie beispielsweise der Biologie, der Meterologie oder bei Bildkompressionsverfahren.

Im Bereich der Textanalyse setzten Mosteller und Wallace[8] die Methode zur Untersuchung der Federalist Papers erstmals im Zusammenhang mit Autorschaftsattributionen ein. Die PCA erlaubt hier, bei einer Vielzahl von Dimensionen, in denen man Unterschiede zwischen Gruppen vermutet, diejenige Betrachtunsgebene zu finden, in der diese Unterschiede am besten sichtbar werden. Vor allem, wenn es um die Zuordnung eines einzelnen Textes unbekannter Herkunft zu einem von zwei Autoren geht, für die jeweils mehrere sicher zugeordnete Vergleichstexte vorliegen, ist die PCA oftmals gut geeignet, die stilistische Ähnlichkeit zu einer der beiden Textgruppen visuell herauszustellen[9][10][11]. Aber auch zur Analyse der zeitlichen Entwicklung von Schreibstilen[12], oder der stilistischen Unterschiede zwischen Dialogen und narrativen Textpassagen[13], kann die PCA eingesetzt werden.

Die Messung stilistischer Distanzen

Abbildung 5.5: Der Abstand zweier Punkte A und B in einem Koordinatensystem: Manhattan-, Euklidische und Cosinus-Distanz. Aus Jannidis et al. 2015.

Noch weiter lässt sich die Analyse stilistischer Unterschiede operationalisieren, indem man diese auch tatsächlich quantifiziert. Die Modellierung von Texten als Datenpunkte in einem hochdimensionalen Koordinatensystem bietet hierbei die Möglichkeit, Abstände zwischen diesen Punkten direkt zu berechnen und als Maß für die stilistische Verschiedenheit zweier Texte zu verwenden. Es gibt in der Mathematik eine Reihe von Möglichkeiten, den Abstand zwischen zwei Punkten in einem mehrdimensionalen Raum zu messen. Drei davon kommen in stilometrischen Verfahren zum Einsatz: die Manhattan-Distanz, d.h. die Summe aller Abstände in den einzelnen Dimensionen, die Euklidische Distanz, d.h. die Länge der direkten Verbindungslinie zwischen den Punkten durch alle Dimensionen, und die Cosinus-Ähnlichkeit. Letztere fasst die Texte, die ja im Modell durch Reihen von Zahlenwerten repräsentiert werden nicht als Punkte auf, sondern als Vektoren, und quantifizieren deren Unterschiedlichkeit bzw. Ähnlichkeit als Cosinuswert des Winkels zwischen den beiden Vektoren (Abb. 5.5).

Abb. 5.6: Texte zweier verschiedener AutorenInnen in einem vereinfachten, zweidimensionalen Feature-Raum. Die Texte der einen Autorin oder des einen Autors werden durch Kreise, die der/des anderen durch Dreiecke repräsentiert. Die stilistischen Abstände zwischen den Texten lassen sich in diesem Modell als Linien darstellen. Blaue Linien zeigen dabei Abstände zwischen Texten aus der gleichen Feder, rote Linien Vergleiche zwischen Texten unterschiedlicher Urheberschaft. Aus Jannidis et al. 2015.

Das erste Verfahren dieser Art, das in der Textanalyse erfolgreich war und bis heute in vielen Bereichen eingesetzt wird, wurde von John Burrows[14] vorgestellt. In seinem als Burrows' Delta bekannt gewordenen Verfahren werden die Worthäufigkeiten zunächst in relative Wortfrequenzen, d.h. in Prozent der Gesamtsumme aller Wörter im Text umgerechnet. Anschließend erfolgt eine sog. z-Transformation, die dafür sorgt, daß alle Werte mit einer Standardabweichung von Eins um einen Mittelwert von Null streuen. Ohne diese Standardisierung wäre das Gewicht der häufigsten Worte, wie "und", "der" und "die", so groß, daß die anderen Worthäufigkeiten gar keinen Einfluß mehr auf die Analyse haben, durch die Standardisierung haben alle Features vergleichbar große Werte und fallen gleichermaßen ins Gewicht. Auf den standardisierten relativen Häufigkeiten, den sog. z-Scores, wird nun die Manhattan-Distanz berechnet. Dieser Wert wird als Delta bezeichnet, und dient als Maß für die Unterschiedlichkeit zweier Texte. Burrows testete sein Verfahren an einem Korpus mit Texten von 25 englischen Autoren aus dem 17. Jahrhundert. Es konnte dabei zeigen, daß sich ein Textabschnitt von nur 2000 Wörtern Länge anhand von Delta-Abständen mit einer Erfolgsquote von 95% dem richtigen Autor zuordnen lässt, und das auf Basis von nicht mehr als den Häufigkeiten der 150 meist genutzten Wörter (Abb. 5.6).

Wenngleich John Burrows ursprüngliche Variante von Delta nach wie vor erfolgreich in der Forschung eingesetzt wird existieren mittlerweile mehrere Weiterentwicklungen. Argamon[15] schlug auf Grundlage mathematischer Argumente eine Variante vor, die statt der Manhattan-Distanz die Euklidische Distanz verwendet. Empirische Studien konnten allerdings nicht zeigen, dass Argamons Delta in der Praxis bei der Autorenschaftszuschreibung besser funktioniert als Burrows Delta[16]. Rybicki und Eder[17] entwickelten eine Variante, die speziell an die Bedürfnisse stark flektierter Sprachen wie Polnisch und Latein angepasst ist. Im Vergleich zu einer weitgehend unflektierten Sprache, wie dem Englischen, ist bei Sprachen mit größerer morphologischer Formenvielfalt zu erwarten, daß die relative Häufigkeit der häufigen Wörter insgesamt weniger groß ist.  Beim sog. Eders Delta werden die Features nach ihrem Rang in der Liste der häufigsten Wörter gewichtet, um diesen Unterschied zu kompensieren. Die bisher beste Erfolgsquote im empirischen Vergleich erreichte eine von Smith and Adrigde[18] vorgeschlagene Variante, bei der die Cosinus-Ähnlichkeit der z-Scores berechnet wird. Vor allem liefert Cosinus Delta auch bei sehr vielen Features stabil gute Ergebnisse, während die Erfolgsquote der anderen Varianten sinkt, wenn mehr als die 2000 häufigsten Wörter in die Analyse mit eingehen[19]. Ein wesentlicher Grund dafür liegt vermutlich darin, dass in diesem Bereich der Wortliste zunehmend Worte auftreten, die nur in einzelnen Texten in hoher Frequenz vorkommen. Solche text-, und nicht autorenspezifischen Vokabeln können die Abstände zwischen Texten, die vom der gleichen Autorin/vom gleichen Autor stammen, bei anderen Delta-Verfahren sehr groß werden lassen. Sie haben aber einen geringeren Effekt auf die Cosinus-Distanz, da die Wirkung einzelner Extremwerte hier in ähnlicher Weise gedämpft wird wie nach einer Vektor-Normalisierung [20].

Stilometrische Analysen in Stylo

Für solche stilometrischen Analyseverfahren stehen heutzutage verschiedene, frei verfügbare Werkzeuge zur Verfügung. Eine der umfangreichsten Implementierungen stilometrischer Methoden bietet das Stylo -Paket von Maciej Eder, Jan Rybicki und Mike Kestemont. Es handelt sich dabei zwar im Prinzip um ein Packet für die Skriptsprache R, erfordert aber keinerlei Programmierkenntnisse: Der Anwender kann über die R-Konsole eine graphische Benutzeroberfläche (Graphical User Interface oder GUI) aufzurufen, über die sich die meisten Funktionen von Stylo per Mausklick bedienen lassen. Zur methodischen Grundausstattung von Stylo gehören sowohl die PCA, als auch Gruppierung von Texten anhand von Delta-Abständen.

Vorbereitung

Stylo zu nutzen erfordert zunächst einmal eine Installation von R. Aktuelle Installationsanleitungen für die gängigen Betriebssysteme finden sich auf der Projektseite:

https://www.r-project.org/

Nach der Installation kann R nun, entweder über die Programmverknüpfung, oder, in einem Unix-basierten Betriebssystem, über die Eingabe des Befehls "R" in der Kommandozeile, gestartet werden. Innerhalb der R-Konsole sollte nun das Paket "stylo" installiert werden. Nutzt man R in einer graphischen Benutzeroberfläche, wie sie in der Windowsversion automatisch mit installiert wird, so kann man Pakete aus dem zentralen CRAN-Repository normalerweise über das Menü installieren. Eine andere Möglichkeit, die unabhängig von Nutzeroberfläche und Betriebsystem überall gleich funktioniert besteht darin, in die R-Konsole den Befehl

install.packages("stylo")

einzugeben, und die Eingabetaste zu drücken. Dieser Befehl installiert das Paket, das nun mit einem weiteren Befehl

library(stylo)

geladen, d.h. aktiviert werden kann. (Auch hier muss nach dem Befehl die Eingabetaste betätigt werden.) Wichtig: Dieser Befehl ist auch dann nötig, wenn die Installation des Paketes über das Menü vorgenommen wurde, und muss bei jedem Neustart von R wiederholt werden. 

Der nächste Schritt ist nun die Vorbereitung der zu installierenden Texte. Stylo nimmt sich die Texte für seine Analyse aus einem Unterverzeichnis namens "corpus" im aktuellen Arbeitsverzeichnisses. Zunächst einmal muss also auf dem Computer ein Arbeitsverzeichnis angelegt werden. Dieses könnte unter Windows beispielsweise "c:\MeineAnalyse\" oder in einem Unixsystem "/home/MeineAnalyse/" oder "~/MeineAnalyse" heißen. In diesem Verzeichnis muss nun ein Unterordner namens "corpus" angelegt werden (der Pfad dorthin lautet dann also "c:\MeineAnalyse\corpus\"), in dem dann die Texte abgelegt werden. Für die Arbeit mit Stylo wird jeder Text in einer eigenen Datei gespeichert, wobei als Formate sowohl TXT und HTML als auch TEI-XML in Frage kommen. Interessant ist hierbei insbesondere die Benennung der Dateien. Stylo verwendet die Dateinamen später als Beschriftungen in den Visualisierungen. Der erste Teil des Dateinamens, sofern mit einem Unterstrich abgetrennt, wird dabei als Gruppierungsvariable verwendet und bildet die Grundlage für farbliche Unterscheidungen. Zur Untersuchung von Autorenschaftsfragen eignet sich also besonders ein Benennungsschema, das mit einem eindeutigen Autorennamen beginnt, der durch einen Unterstrich von einem eindeutigen Titel getrennt ist. Ein geeigneter Dateiname für Rudyard Kiplings "The Jungle Book" wäre also "Kipling_TheJungleBook.txt". Die folgenden Code- und Analysebeispiele beziehen sich auf kleines Beispielkorpus von 12 englischsprachigen Kurzgeschichten von 4 verschiedenen Autoren, die alle in einem Zeitraum von etwa 50 Jahren entstanden sind.

Sobald nun die Ordnerstruktur steht, begibt man sich in die R-Konsole, um dort den gewählten Ordner (MeineAnalyse) als Arbeitsverzeichnis einzustellen. Der Befehl dafür lautet "setwd()" (das steht für set working directory) und könnte bei uns, je nach Betriebssystem (s.o.), Beispielsweise so aussehen:

setwd("~/MeineAnalyse/")

Wenn man sich nicht sicher ist, ob man schon im richtigen Arbeitsverzeichnis ist, kann das aktuelle Arbeitsverzeichnis in der R-Konsole auch mit dem Befehl

getwd()

abgefragt werden. Um Stylo nun zu starten und über das paketeigene GUI zu bedienen, gibt man als letzten Konsolenbefehl 

stylo()

ein und drückt die Eingabetaste.

Nutzung

Hat man bis hierhin alles richtig gemacht, so sollte man nun das Fenster des Stylo-GUI vor sich sehen (Abb. 5.6).

Abbildung 5.6: Stylo GUI

In diesem Fenster können nun eine Reihe von Einstellungen vorgenommen werden. Das in unserem Beispiel verwendete TXT-Dateiformat entspricht bereits der Voreinstellung. Ebenso wie die Sprache (in diesem Beispiel Englisch) und die Verwendung einfacher Worthäufigkeiten als Features. An all diesen Einstellungen müssen für unser Beispiel keine Veränderungen vorgenommen werden. Wählt man nun unter "STATISTICS" die "PCA (corr.) als Analyseverfahren und klickt auf "OK", so erzeugt Stylo die Visualisierung der ersten beiden Principal Components (Abb. 5.7).

Abbildung 5.7: PCA in Stylo


Hier zeigt sich bereits sehr deutlich, wie sich die Texte der vier Autoren in vier Gruppen aufteilen. Hätten wir zuvor eine der Dateien mit dem Autorennamen "Unbekannt" versehen, so könnten wir den Text nun trotzdem aufgrund seiner Position im Koordinatensystem einer Gruppe zuordnen. Zu beachten ist bei dieser Darstellung, dass PC1 einen größeren Teil der Datenvarianz repräsentiert (30,6% im vergleich zu 22,9% bei PC2), und dass eben nur zwei von 100 Dimensionen dargestellt werden, wenn auch die zwei mit der größten Varianz. Folglich sollten vergleichende und quantifizierende Aussagen über die größere oder kleinere Ähnlichkeit zweier Autoren rein auf Basis der PCA vermieden werden.

Für solche Aussagen bietet sich eher eine auf Delta-Abständen basierende Clusteranalyse an. Wählt man als Methode unter "STATISTICS" "Cluster Analysis" und unter "DISTANCES" "Classic Delta", dann erzeugt Stylo ein Baumdiagramm, bei dem die Entfernung zwischen den Texten entlang der Äste des Diagramms ihrer stilistischen Unterschiedlichkeit nach Burrows Delta entspricht (Abb. 5.8).

Hier zeigt sich wieder klar eine Gruppierung der Texte nach ihren Autoren. Gleichzeitig aber spaltet sich das Baumdiagramm schon früh in zwei Untergruppen; die beiden britischen Autoren Doyle und Kipling finden sich auf dem einen Ast, was zeigt, dass sie sich sich stilistisch besonders ähnlich sind, die beiden Amerikaner Lovecraft und Howard auf dem anderen. 

NLP-Tools in der Stilometrie

Was ist nun aber, wenn man sich für andere Features interessiert, wenn das Abzählen der häufigsten Wörter nicht ausreicht, oder von vornherein ungeeignet erscheint, die Forschungsfrage zu beantworten? Was, wenn man eher das Inventar an beschreibendem Vokabular vergleichen möchte, oder den Satzbau? Stylo selbst bietet die Optionen, statt Wörter auch Buchstaben oder Zeichen als Features zu verwenden, oder sog. n-Gramme, als Ketten von Worten oder Zeichen in einder definierbaren Länge. Will man aber tatsächlich an bestimmte Wortklassen oder Satzstrukturen heran, wird der Einsatz zusätzlicher Werkzeuge aus dem Bereich des Natural Language Processing (NLP) erforderlich.

ComputerlinguistInnen haben in den vergangen Jahren eine ganze Reihe solcher Werkzeuge entwickelt und arbeiten stetig an ihrer Verbesserung. So können heutzutage für eine Reihe von Sprachen diverse linguistische Analysen automatisiert durchgeführt werden, dazu gehören z.B. die Lemmatisierung, Grammatische Satzanalyse und die Erkennung von Eigennamen. Das DKPro-Projekt der Technischen Universität Darmstadt entwickelt eine Programmierumgebung, in der viele dieser unabhängig voneinander entwickelten Werkzeuge zu einer Art virtueller Fließbandverarbeitung zusammen gebaut werden können, um komplexe, mehrstufige linguistische Analyseprozesse zu realisieren. Die Verwendung von DKPro erfordert allerdings Programmierkenntnisse in Java, was grundsätz eine recht hohe Einstiegshürde darstellt. Um auch DH-affinen GeisteswissenschaftlerIinnen ohne diese Kenntnisse den Zugang zu den Möglichkeiten von DKPro zu bieten, wurde im Rahmen von DARIAH-DE der sog. DKPro-Wrapper entwickelt, ein fertig zusammegebautes DKPro-Programm, das sich als Java-Datei herunterladen, in der Kommandozeile ausführen, und über eine Konfigurationsdatei steuern lässt. Der DKPro-Wrapper erzeugt aus einer Textdatei eine CSV-Tabelle, in der der ursprüngliche Text Wort für Wort in einer Spalte steht, und in den anderen Spalten mit diversen, computergenerierten linguistischen Annotationen versehen ist. Dieses Output-Format ist für die Weiterverarbeitung in Datenanalyseskripten, wie man sie z.B. in [www.r-project.org|R] oder mit Hilfe des Pandas-Paketes in Python schreiben kann, es lässt sich aber grundsätzlich auch einfach als Tabelle in MS-Excel öffnen (Abb. 5.9).

Ein ausführliches Tutorial, das beschreibt, wie der DKPro-Wrapper installiert und ausgeführt wird, wie sich die Konfiguration an eigene Bedürfnisse anpassen lässt, und wie man mit dem Output sowohl stilistische, als auch inhaltliche Analysen durführen kann, findet sich im von DARIAH-DE. Hier nur die kurze Version. Zunächst einmal erfordert DKPro eine aktuelle Installation des SE Development Kit. Die Aktuelle Version des DKPro-Wrappers kann bei [1] herunter geladen werden. Sie wird in das gewünschte Arbeitsverzeichnis kopiert und dort von der Kommandozeile aus, d.h. in der Unix-Shell oder über die Windows-Eingabeaufforderung, mit folgendem Befehl ausgeführt:

   java -Xmx4g -jar DateinameVomAktuellenDKProWrapper.jar -input PfadZurTextdatei.txt -output PfadZumOutputordner
   

Die Option -Xmx4g ist notwendig, um Java ausreichen Arbeitsspeicher für die Rechenoperation zuzuweisen. Konkret könnte der Befehl also so aussehen:

   java -Xmx4g -jar de.tudarmstadt.ukp.dariah.pipeline-0.3.0-standalone.jar -input C:\MeineAnalyse\corpus\Kipling_TheJungleBook.txt -output C:\MeineAnalyse\CSV\
Abbildung 5.8: Baumdiagramm einer Clusteranalyse basierend auf Delta-Abständen
Abbildung 5.9: Output des DKPro-Wrapper geöffnet in LibreOffice Calc.

Wichtig: Das Programm ist darauf angewiesen, temporär Komponenten aus dem Internet nachzuladen, es erfordert also eine funktionierende Internetverbindung. Vorsicht, wichtig: Je nach Hardware, Länge der Textdatei und Auswahl an Analysverfahren, die der DKPro-Wrapper durchführen soll, kann alles sehr lange dauern!

Wenn der Wrapper durchgelaufen ist, sollte er eine CSV-Datei mit den Analyseergebnissen erzeugt haben. Diese Ergebnisse können nun wiederum in Stylo eingespeist werden. Prinzipiell kann daraus ein Textkorpus für Stylo von Hand erzeugt werden, indem man die relevante Spalte aus dem CSV kopiert und in einer neuen Textdatei mit einer geeigneten Benennung in einem Ordner namens "corpus" speichert. Eleganter lässt sich das natürlich mit einem kurzem Skript in R oder Python erledigen, hier bietet sich zusätzlich die Möglichkeit, auch bedingte Abfragen unter Einbeziehung mehrerer Spalten zu implementieren um beliebig komplexe Features zu extrahieren. Das folgende R-Skript (das man auch kopieren und in der eigenen R-Konsole ausführen kann) zeigt beispielhaft, wie wie man nach der Verarbeitung im DKProWrapper aus dem oben werwendeten Korpus zwei verschiedene neue Korpora für die Analyse in Stylo erstellt. Zum einen wird ein unterordner erstellt, in dem alle Texte auf lemmatisierte Adjektive und Adverbien, also auf ihr Deskriptives Vokapular ("dv") reduziert sind. Im anderen Ordner ("pos") finden sich in den Textdateien statt der urspünglichen Sätze nur noch die entsprechenden grammatikalischen Funktionsbezeichnungen (engl. "part-of-speech tags" oder "POS-tags").

# Extract file names
files = list.files(pattern = "*.csv")

# Create directories
dir.create("dv/")
dir.create("pos/")
dir.create("dv/corpus/")
dir.create("pos/corpus/")

for(file in files){
 # Read file
 df = read.table(file, header = T, fill = T)

 # Prepare filename
 shortfile = sub(".csv", "", file)

 # Write lemmatized Adjectives and Adverbes to analyse the author's inventar of descriptive vocabulary
 dv = df$Lemma[df$CPOS == "ADJ" | df$CPOS == "ADV"]
 filename = paste("./dv/corpus/", shortfile, sep = "")
 write(paste(dv, collapse = " "), file = filename)

 # Write POS tags to compare sentence structure
 filename = paste("./pos/corpus/", shortfile, sep = "")
 write(paste(df$CPOS, collapse=" "), file = filename)
 }
 

In den Ordnern "dv" und "pos" befindet sich nun jeweils wieder ein Ordner mit dem Namen "corpus", in dem die Dateien abgelegt sind. Es genügt also, in gewohnter Weise in der R-Konsole einen der neuen Unterordner als Arbeitsverzeichnis auszuwählen und Stylo zu starten:

   setwd("./dv/")
   stylo()

Sollte hier die Fehlermeldung

Error: could not find function "stylo"

erscheinen, so hat man vermutlich vergessen, das Paket vorher zu laden. Zur Erinnerung: library(stylo).

In der Nutzeroberfläche kann nun, wie oben, die Clusteranalyse auf Delta-Basis ausgewählt werden. Bei Betrachtetung des nun erzeugten Baumdiagramm für das Deskriptive Vokabular (Abb. 5.10) zeigt sich zunächst, dass die Texte auch bei dieser Analyse zunächst nach Autoren gruppiert werden. Allerdings teilt sich der Baum nun nicht mehr nach britischen und amerikanischen Autoren auf, dafür zeigen sich deutliche Ähnlichkeiten zwischen Howard Kipling. (Man mag nun spekulieren, ob das mit der Vorliebe dieser beiden Autoren für Geschichten in exotischen, oft tropischen Umgebungen zusammen hängt.)

Abbildung 5.10: Baumdiagramm der Stilistischen Ähnlichkeiten basierend auf dem deskriptiven Vokabular der Autoren.

Für die Analyse der Satzstruktur wechselt man mit dem Arbeitsverzeichnis in den beachbarten Ordner und startet Stylo dort:

   setwd("../pos/")
   stylo()

In den Textdateien befinden sich in diesem Fall nur die Part-of-Speech Tags. Unter "FEATURES" wählt man in Stylo nun die "N-GRAM SIZE" von 3, um Dreierketten von POS-Tag als Features in die Analyse einzuspeisen. Individuelle Vorlieben beim Satzbau sollten sich also durch charakteristische Dreierkombinationen in der Analyse niederschlagen. Bei dieser Analyse (Abb. 5.11) verhalten sich Kiplings Texte auffällig anders als die der anderen Autoren. Während letztere nach wie vor dicht zusammen liegen, zeigt sich auf den Satzbau bezogen eine starke stilisitische Variabilität innerhalb von Kiplings verschiedenen Geschichten.

Abbildung 5.11: Baumdiagramm der Stilistischen Ähnlichkeiten basierend auf dem Satzbau.

Links und Literatur

Anmerkungen

  1. Tools und Dienste in DARIAH-DE https://de.dariah.eu/tools-und-dienste
  2. http://dirtdirectory.org "The DiRT Directory is a registry of digital research tools for scholarly use. DiRT makes it easy for digital humanists and others conducting digital research to find and compare resources ranging from content management systems to music OCR, statistical analysis packages to mindmapping software."
  3. https://de.dariah.eu/geobrowser
  4. http://geobrowser.de.dariah.eu
  5. http://geobrowser.de.dariah.eu/edit/
  6. Karl Pearson. “On lines and planes of closest fit to systems of points in space”, Philosophical Magazine, Series 6, vol. 2, no. 11, 1901, pp. 559-572.
  7. Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520.
  8. Frederick Mosteller and David L. Wallace. 1964. Inference and Disputed Authorship: The Federalist. SpringerVerlag, New York. 2nd Edition appeared in 1984 and was called Applied Bayesian and Classical Inference.
  9. Burrows J, 1989. “ ‘An ocean where each kind...’: statistical analysis and major determinants of literary style”. Computers and the Humanities 23: 309-321
  10. Binongo und Smith, “The Application of Principal Component Analysis to Stylometry”, Literary and Linguistic Computing 14.4, 1999.
  11. Binongo JNG, 2003. “Who wrote the 15th book of Oz? An application of multivariate analysis to authorship attribution”. Chance 16(2): 9-17
  12. Brainerd B, 1980. “The chronology of Shakespeare’s plays: a statistical study”. Computers and the Humanities 14: 221-230
  13. Burrows J, 1987. “Word patterns and story-shapes: the statistical analysis of narrativve style”. Literary and Linguistic Computing 2(2): 61-70
  14. John Burrows: “Delta: A Measure for Stylistic Difference and A Guide to Likely Authorship”. In: LLC 17,3 2002.267-87.
  15. Shlomo Argamon: “Interpreting Burrows’s Delta: geometric and probabilistic foundations”. Literary and Linguistic Computing 2008;23(2):131-47.
  16. Fotis Jannidis, Steffen Pielström, Christof Schöch and Thorsten Vitt. 2015. “Improving Burrows’ Delta - An empirical evaluation of text distance measures”. In: Digital Humanities Conference 2015.
  17. Jan Rybicki and Maciej Eder: “Deeper Delta across genres and languages: do we really need the most frequent words?” Lit Linguist Computing (2011) 26 (3): 315-321.
  18. Smith, Peter WH, and W. Aldridge. "Improving Authorship Attribution: Optimizing Burrows' Delta Method*." Journal of Quantitative Linguistics 18.1 (2011): 63-88.
  19. Fotis Jannidis, Steffen Pielström, Christof Schöch and Thorsten Vitt. 2015. “Improving Burrows’ Delta - An empirical evaluation of text distance measures”. In: Digital Humanities Conference 2015.
  20. Evert S, Proisl T, Jannidis F, Pielström S, Schöch C und Vitt T, 2015. "Towards a better understanding of Burrows’s Delta in literary authorship attribution." NAACL-HLT Fourth Workshop on Computational Linguistics for Literature, Denver, Colorado.