Korpusgestützte Textanalyse

Text
From the series: narr studienbücher
Read preview
Mark as finished
How to read the book after purchase
Korpusgestützte Textanalyse
Font:Smaller АаLarger Aa

Manfred Stede



Korpusgestützte Textanalyse



Grundzüge der Ebenen-orientierten Textlinguistik



A. Francke Verlag Tübingen






© 2019 • Narr Francke Attempto Verlag GmbH + Co. KG

Dischingerweg 5 • D-72070 Tübingen

www.francke.de

 • info@francke.de





Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.





E-Book-Produktion: pagina GmbH, Tübingen





ePub-ISBN 978-3-8233-0154-7




Inhalt






Vorworte

Vorwort zur 2. Auflage

Vorwort zur 1. Auflage




Teil I Einführung und Grundbegriffe

1 Einleitung und Übersicht1.1 Motivation1.2 Arbeit mit Textkorpora: Software-Werkzeuge für Annotation und Recherche1.3 Das Potsdamer Kommentarkorpus1.4 Übersicht über das Buch1.5 Übungsaufgabe

2 Kohäsion, Kohärenz und Textualität

2.1 Die Anfänge der Textlinguistik2.2 Kohäsion2.3 Kohärenz2.4 Textualität2.5 Korpusuntersuchungen zu Kohäsion und Kohärenz2.6 Übungsaufgaben

3 Textfunktion, Textsorte und Texttyp

3.1 Textfunktion3.2 Textsorte3.3 Texttyp3.4 Übungsaufgaben




Teil II Strukturstiftende Phänomene

4 Referenzielle Struktur4.1 Referenz und Koreferenz4.2 Referenzielle Ketten: Globale Effekte4.3 Koreferenz: Lokale Effekte4.4 Annotation von Koreferenz in Korpora4.5 Übungsaufgaben

5 Thematische Struktur

5.1 Thema als Textgegenstand5.2 Textglobale thematische Strategien5.3 Lokale thematische Verknüpfung5.4 Die Sicht der Informationsstruktur5.5 Annotation thematischer Information in Korpora5.6 Übungsaufgaben

6 Temporale Struktur

6.1 Ereignisse in der temporalen Struktur6.2 Zeitausdrücke6.3 Annotation von temporaler Struktur in Korpora6.4 Übungsaufgaben

7 Sprechhandlungen und Illokutionsstruktur

7.1 Hintergrund: Sprechhandlungen7.2 Sprechhandlungen in Texten7.3 Inventar von Illokutionen7.4 Übungsaufgaben

8 Argumentationsstruktur

8.1 Argumentieren8.2 Argumentation im Text8.3 Annotation von Argumentationsstrukturen in Korpora8.4 Übungsaufgabe




Teil III Phänomenübergreifende Textstruktur

9 Minimale Texteinheiten und ihre Verknüpfung9.1 Segmentierung von Texten9.2 Identifikation von Illokutionen9.3 Verknüpfung von Textsegmenten9.4 Annotation von Konnektoren und Segmenten in Korpora9.5 Übungsaufgaben

10 Rhetorische Struktur

10.1 Lokale Kohärenz durch Relationen zwischen Textsegmenten10.2 Von lokalen Relationen zu globalen Strukturen10.3 Inkrementelles Textverstehen10.4 Baumstruktur oder Graphstruktur?10.5 Fazit10.6 Annotation von rhetorischer Struktur in Korpora10.7 Übungsaufgaben

11 Schluss: Entstehung von Kohärenz

11.1 Die Ebenen11.2 Mehr-Ebenen-Analyse und Korpora11.3 Textkohärenz: Beziehungen zwischen Ebenen





Literaturverzeichnis







Index










Für Brigitte, Leonie und Tim







Vorworte

Vorwort zur 2. Auflage



Als im Jahr 2006 die erste Ausgabe dieses Buches entstand, waren korpusbasierte Ansätze in der Linguistik bereits recht weit verbreitet, doch für die Beschreibungsebene

Text

 gab es nur wenige Korpora, die mit textlinguistisch relevanten Phänomenen annotiert waren – zumal für die deutsche Sprache. Das lag in erster Linie daran, dass diese Phänomene (wie etwa die Koreferenz zwischen Nominalphrasen oder die Gliederung eines Textes in seine Diskursstruktur) einerseits für eine automatische Analyse zu schwierig waren und andererseits eine manuelle Annotation mit hohem Aufwand verbunden war. Insofern war der Titel

Korpusgestützte Textanalyse

 seinerzeit vor allem als programmatisch zu verstehen. Seither hat sich das Forschungsfeld jedoch kräftig weiter entwickelt: Auch für das Deutsche sind eine ganze Reihe interessanter Korpora entstanden, annotiert mit vielfältigen textlinguistischen Phänomenen, sowie leistungsfähige Software-Werkzeuge, die eine komfortable Recherche in diesen Korpora ermöglichen. Die vorliegende Neuauflage greift diese Entwicklungen auf und berichtet an vielen Stellen über die Möglichkeiten des Erkenntnisgewinns mit Hilfe solcher Werkzeuge. Insbesondere steht nun das frei zugängliche

Potsdamer Kommentarkorpus

, implementiert in der linguistischen Datenbank

ANNIS3

, mit seiner Mehrebenen-Annotation für praktische Übungen zur Verfügung; hier danke ich Peter Bourgonje und Thomas Krause für die technische Unterstützung.



Darüber hinaus sind alle Kapitel gründlich durchgesehen und teilweise ergänzt worden, um neuere Entwicklungen der Textanalyse zu integrieren.





Potsdam, im Juni 2018  Manfred Stede





Vorwort zur 1. Auflage



Dieses Buch nähert sich der Aufgabe

Textanalyse

 aus zwei verschiedenen Richtungen: Das grundsätzliche Anliegen, Strukturen in Texten aufzudecken und nach der Entstehung von Kohärenz zu fragen, ist das der Textlinguistik. Auch die Idee, dafür eine Reihe unterschiedlicher Ebenen heranzuziehen, wird von verschiedenen Autor/innen der Textlinguistik vertreten. Sie ist jedoch ebenso in der Computerlinguistik prominent, und damit geht der Versuch einher, die Aufteilung in Ebenen und die Untersuchung ihrer Zusammenwirkung möglichst systematisch zu betreiben. Hinzu kommt die Betonung der Rolle eines datenorientierten Vorgehens, das (neben der Korpuslinguistik,

per definitionem

) gleichfalls in der Computerlinguistik seit vielen Jahren gründlich verankert ist. Während meiner Beschäftigung mit der Thematik fiel mir auf, wie merkwürdig separat die Disziplinen Textlinguistik und Computerlinguistik allerdings nebeneinander zu existieren scheinen: Die Textlinguistik nimmt kaum einmal die durchaus interessanten Ergebnisse der textbezogenen Computerlinguistik auf. Und in der Computerlinguistik werden mitunter Räder neu erfunden, die vor vielen Jahren in der Textlinguistik bereits bekannt waren, wenn auch möglicherweise noch nicht hinreichend formalisiert. Diese Entwicklung ist bedauerlich, und es erscheint mir wichtig, die beiden Disziplinen stärker aufeinander aufmerksam zu machen. Sollte das Buch dazu einen Beitrag leisten, so wäre ein Ziel erreicht.



Das Buch möchte Studierenden einen Überblick über die verschiedenen Ebenen der linguistischen Textanalyse vermitteln. Weil am Ende die Einsicht in das Zusammenwirken der unterschiedlichen Ebenen stehen soll, ist das Unterfangen relativ „breit“ angelegt – wir behandeln eine ganze Reihe recht unterschiedlicher Themen. Dies bedingt, dass bei der Diskussion der Einzelebenen einiges nur kursorisch besprochen wird, was von Fall zu Fall unbefriedigend erscheinen mag. Ich habe jedoch versucht, am Ende jedes Kapitels Hinweise auf geeignete weiterführende Lektüre zur jeweiligen Ebene anzugeben.



Das Buch entstand im Verlauf dreier Veranstaltungen des Proseminars

Textstrukturen

 an der Universität Potsdam. Allerlei Anregungen aus den Diskussionen mit Seminarteilnehmer/innen flossen in die Überarbeitungen ein. Besonders bedanken möchte ich mich bei Eva Breindl, Christian Chiarcos, Stefanie Dipper, Michael Grabski, Alexander Mehler und Georg Rehm für ihre wertvollen Hinweise zur Verbesserung früherer Versionen einzelner Kapitel. Andreas Peldszus half bei einigen technischen Problemen und der Gestaltung von Abbildungen. Doch wie immer gilt: Für alle verbleibenden Fehler ist allein der Autor verantwortlich.





Potsdam, im März 2007  Manfred Stede







Teil I Einführung und Grundbegriffe

1 Einleitung und Übersicht

1.1 Motivation



Texte sind vielschichtige Objekte. Lesen wir einen, so geschehen vielerlei Dinge mit uns: Unter anderem rufen wir die einzelnen Wörter oder Phraseme (Mehrworteinheiten) in unserem mentalen Lexikon ab; analysieren wir seine Sätze und ihre Bestandteile mit Hilfe unseres grammatischen Wissens; machen uns ein Bild von der Bedeutung der Sätze; stellen dazu Zusammenhänge zu anderen Sätzen her (z.B. beim Verstehen eines Pronomens); setzen auch die einzelnen Satzbedeutungen zueinander in Beziehung (z.B. beim Herstellen eines Kausalzusammenhangs, der nicht explizit ausgedrückt ist); stellen fest, „worum es geht“ und registrieren Themen-Wechsel an bestimmten Textstellen; nehmen den Stil des Textes wahr: auf welche Weise spricht die Autorin oder der Autor mit uns; identifizieren wir gelegentlich versteckte Präsuppositionen und interpretieren unscheinbare Andeutungen; erkennen wir (oder glauben zu erkennen), was man uns mit diesem Text wirklich sagen will, welchen Zweck der Text erfüllen soll. All dies und mehr geschieht sehr schnell und zur gleichen Zeit – der Text geht nicht wie ein Computerprogramm „Schritt für Schritt“ vor und serviert uns solcherlei Informationseinheiten und Verarbeitungsanweisungen in sauberer Reihenfolge, sondern lässt uns in hohem Maße parallel arbeiten, also rezipieren und konstruieren. Ein Blick auf die Etymologie des Wortes

Text

TextEtymologie, wie ihn etwa Mistrik (1973, S. 10) vornahm, verdeutlicht die Komplexität:

 



Das Verständnis dieses Begriffes wird uns durch den Rückgriff auf die ursprüngliche Bedeutung des lateinischen Verbums

texo, texere

 und des lateinischen Substantivums

textus

 erleichtert:

texo, texere

 heißt

weben, flechten, zusammenfügen, bauen

;

textus

 heißt

Gewebe, Geflecht, Zusammenhang, Gefüge

. Ein Text ist also ein kompaktes Ganzes, dessen Inneres auf eine bestimmte Weise geflochten, d.h. aus der Fügung sprachlicher Elemente entstanden ist. Er ist eine in sich geschlossene sprachliche Äußerung im allgemeinen Sinne.



Mistrik betont hier auch, dass bei aller Komplexität ein (guter) Text am Ende die verschiedenen Fäden wieder zusammen laufen lässt, den Eindruck der

Abgeschlossenheit

 vermittelt. Nach der Lektüre kann der Leser mit der Autorin übereinstimmen oder nicht, kann feststellen, dass vielleicht einige inhaltliche Fragen offen geblieben sind; doch das Lese-Erlebnis als solches ist erfolgreich beendet, wenn sich das Gefühl einstellt, das Anliegen des Textes insgesamt verstanden zu haben.



Wie aber „funktioniert“ ein solch komplexes Lese-Erlebnis? Wie gelingt es dem Text, uns ein solches Erlebnis zu verschaffen? Aus linguistischer Sicht ist dies bislang nur in einzelnen Ansätzen verstanden. Es gibt relativ gut ausgearbeitete Modelle für bestimmte Aspekte (z.B., wie finden wir ein Antezedens für ein Personalpronomen), aber es gibt keine umfassende Erklärung für das Zusammenwirken der verschiedenen Teilaufgaben, die wir beim Lesen bearbeiten. Dass man sich für die Suche nach einer solchen Erklärung auf ganz unterschiedliche Beschreibungsebenen begeben muss, dürfte heute weitgehend unstrittig sein. Bereits im Modell von Grosz u. Sidner (1986) ist von drei verschiedenen Strukturen die Rede (die allerdings nicht gleichermaßen ausgearbeitet wurden): einer intentionalen, einer aufmerksamkeitssteuernden (

attentional

) und einer linguistischen Struktur. Ähnlich unterscheidet Nussbaumer (1991) eine funktional-illokutive Ebene (Handlungsstruktur), eine inhaltlich-propositionale Ebene, sowie eine sprachlich-ausdrucksseitige Ebene. Sehr reichhaltig ist das Programm der Untersuchung dieser Vielfalt in dem Band

Ebenen der Textstruktur

 (Motsch, 1996) artikuliert. Auch Brinker (2005) betont, dass künftige Forschung die einzelnen Ebenen zunächst isolieren und dann systematisch miteinander verbinden müsse. Allein fehlt bis heute eine Theorie, die auf der Grundlage sorgfältig ausgearbeiteter Einzelebenen dann genau das

Zusammenwirken

 dieser Ebenen erklären könnte. Dieses Ziel wurde vor einiger Zeit bereits sehr eingängig von Brandt u. Rosengren (1992, S. 9, Hervorh. durch MS) formuliert:



Einigkeit besteht heute darüber, dass Texte multidimensionale Gebilde sind (…) In (Motsch 1990a) liegt ein Versuch vor, die einzelnen Ebenen zu identifizieren. Diese kurze Übersicht zeigt, dass die vielen theoretischen Ansätze, die oft neben- und unabhängig voneinander konzipiert wurden und häufig auch nur einen Aspekt des Textes beleuchten, in einem generellen Modell

zueinander in Bezug gesetzt

 und

an authentischem Material überprüft

 werden müssen. Ein solches Modell kann nicht auf Anhieb ausgearbeitet werden.



Auch heute ist dieses Modell noch nicht in Sicht; bei der Feststellung, dass es „nicht auf Anhieb“ entwickelt werden kann, dürfte es sich mithin um eine milde Formulierung handeln. Eine andere Untersuchung, die sich ebenfalls diesem Ziel verschreibt, ist die von Schröder (2003), der formuliert (S. 1, Hervorh. im Original):



Entscheidend ist, dass die multidimensionale Textstruktur als ein

Zusammenspiel aus verschiedenartigen Ebenen

 begriffen wird. Daraus folgt, dass die unterschiedlichen Ebenen der Textstrukturierung nicht nur getrennt und sozusagen ‚nebeneinander‘ existieren, sondern dass sie sich gegenseitig auch beeinflussen und untereinander in einem Verhältnis wechselseitiger Abhängigkeiten stehen.



Für Schröder steht dann speziell die

Handlungsstruktur

 im Mittelpunkt der Betrachtung, während es uns hier darum geht, nicht eine bestimmte Ebene vertieft zu behandeln, sondern mehrere Ebenen gleichermaßen zur Sprache zu bringen, und die Aufmerksamkeit auf die besagten wechselseitigen Abhängigkeiten zu richten. Um einen Beitrag zu dem eher langfristigen Ziel der Modellierung des Zusammenwirkens zu leisten, schlagen wir zwei, ihrerseits miteinander verwobene, Wege ein:





 Wir versuchen, für eine Reihe interessanter Beschreibungsebenen den jeweiligen „Stand der Kunst“ darzustellen, also Material zusammen zu tragen, das für die Ebene grundlegend ist und auf dessen Basis die Entwicklung präziserer Modelle möglich sein sollte.



 Wir betonen die wichtige Rolle von Daten als Grundlage der Erkenntnissuche und der Theoriebildung. Für die Untersuchung des linguistischen Objekts

Satz

 sind Korpora und insbesondere mit syntaktischer Information angereicherte (sog. ‚annotierte‘) Daten in Gestalt von ‚Baumbanken‘ heute bereits zu einer sehr wichtigen Informationsquelle für viele Syntaktiker geworden. Für den Text ist dieser Perspektivenwechsel bisher – zumindest was die Arbeit mit

annotierten

 Daten betrifft – noch weniger vorangeschritten.





So wie bestimmte Satz-Baumbanken für Computerlinguisten, aber auch für weniger Computer-orientierte Syntaktiker, die gemeinsame Datenbasis darstellen, anhand derer Hypothesen geprüft, weiterentwickelt und miteinander verglichen werden können, kann auch die Untersuchung von Texten erheblich von annotierten Korpora profitieren, anhand derer sich Phänomene aufzeigen lassen, die dann eben auch von Dritten nachvollzogen und weiter intepretiert werden können. Voraussetzung dafür ist freilich, dass die Annotationen einerseits nachvollziehbar und andererseits nützlich sind. Für die Textanalyse bedeutet das – und damit schließt sich unser Kreis – gut motivierte, voneinander getrennte Analyse-Ebenen, die einerseits in sich selbst schlüssig begründet sein müssen und andererseits dann das Auffinden von Korrelationen zwischen diesen Ebenen ermöglichen. Wenn, wie von den oben zitierten (und weiteren) Autoren richtigerweise betont, das Wechselspiel zwischen verschiedenen Ebenen letztlich die

Textualität

Textualität hervorbringt, dann setzt eine systematische Untersuchung dieser Phänomene eine geeignete Datengrundlage voraus: Texte, die gleichzeitig auf unterschiedlichen Ebenen annotiert sind. Dass die Arbeit mit solchen Text-Daten heute möglich ist, verdanken wir den korpus- und computerlinguistischen Entwicklungen der letzten Jahre. Die technische Seite wird in diesem Buch öfters zur Sprache kommen, sie ist aber auch kein zwingender Bestandteil der Lektüre: Die zentrale Diskussion der einzelnen Beschreibungsebenen wird rein inhaltlicher Natur sein.



Unser Untersuchungsgegenstand sind allein geschriebene Texte, und wir treffen hier auch die oft übliche Einschränkung auf sog.

Gebrauchstexte

. Um dem komplexen „Funktionieren“ von Texten auf die Spur zu kommen, sollte man einerseits mit „richtigen“ Texten arbeiten und nicht allein mit handgefertigten Beispielen, andererseits aber die Komplexität auch begrenzen: Wie etwa Dichtung oder spielerische Werbetexte funktionieren, werden wir hier nicht untersuchen. Sämtliche multimedialen Aspekte bleiben ebenfalls von der Betrachtung ausgeschlossen. Bedingt durch das unseren eigenen Untersuchungen meist zugrunde liegende Korpus, das

Potsdamer Kommentarkorpus

Potsdamer Kommentarkorpus, gibt es darüber hinaus einen gewissen Schwerpunkt auf Phänomenen in argumentativen Texten; doch die meisten Kapitel und Abschnitte sind unabhängig von dieser Wahl und gleichermaßen für andere Texttypen gültig.






1.2 Arbeit mit Textkorpora: Software-Werkzeuge für Annotation und Recherche



Im Folgenden gehen wir kurz auf die technische Seite einer korpusgestützen Textanalyse ein. Eine Reihe der Übungsaufgaben in den folgenden Kapiteln basieren auf den hier besprochenen Software-Werkzeugen. Es sei aber noch einmal betont, dass das Buch ggf. auch vollständig ohne die Komponente der Korpus-Recherche gelesen und bearbeitet werden kann.



Die Arbeit mit Textkorpora kann im Prinzip beginnen, sobald eine Sammlung von Textmaterial, das nach bestimmten Kriterien ausgewählt wurde, zusammengestellt ist.1 Mit geeigneten Software-Werkzeugen lassen sich dann Untersuchungen der Wortfrequenz, von Kollokationen etc. durchführen (Hinweise auf solche Werkzeuge finden sich auf der Homepage zum Buch).



Für viele Zwecke entsteht allerdings ein eherblicher Mehrwert, wenn die Texte nicht nur „roh“ vorliegen, sonden mit linguistischer Information annotiert sind. Unter Annotation verstehen wir die Anreicherung von „Primärdaten“ (in unserem Fall: Texten) mit Informationen, die aus linguistischer Interpretation hervorgehen. Dabei kann es sich um ganz unterschiedliche Arten von Information handeln:

part-of-speech tags

, Syntax-Bäume, Sprechakte uvm. Der eigentliche Annotationsvorgang geschieht für manche Informationsarten vollautomatisch, wie üblicherweise bei der morphologischen Analyse und dem

part-of-speech tagging

 (der Annotation mit Wortart-Information). Diese automatische Bearbeitung ermöglicht es den großen deutschsprachigen online-Korpussammlungen

cosmas

2 (IDS Mannheim) und

DWDS

3 (BBAW), Abfragemöglichkeiten anzubieten, die verschiedene Flexionsformen zum eingegebenen Wort finden, typische Wortkookkurrenzen berechnen, oder Wortsuche bei zusätzlicher Angabe der Wortart (zur Desambiguierung) ausführen.



Wenn eine Annotationsaufgabe so schwierig ist, dass sie einstweilen nicht oder nur mit ungenügender Ergebnisqualität automatisierbar ist, dann muss sie manuell durch geschulte Annotatoren ausgeführt werden. Dies ist bei allen in diesem Buch besprochenen Ebenen der Fall, auch wenn für einige davon bereits automatische Lösungen mit durchaus beachtlicher – aber eben nicht perfekter – Qualität existieren. Auch für die manuelle Annotation sind aber geeignete Software-Werkzeuge erforderlich, die vor allem diese zwei Zwecke erfüllen:





 Das Werkzeug kann den jeweiligen Typus der Annotation durch eine geeignete Visualisierung und ein zugeschnittenes Bedienungskonzept optimal unterstützen und dadurch hohe Effizienz ermöglichen.



 Die entstehenden Daten können in geeigneten Formaten abgespeichert werden, die eine einfache Weiterverarbeitung erlauben.





Mit anderen Worten: Linguistische Annotation sollte in aller Regel

nicht

 mit dem gebräuchlichen Textverarbeitungs- oder Tabellenkalkulationsprogramm erfolgen. In den späteren Kapiteln gehen wir jeweils am Ende auf die konkrete Annotationsaufgabenstellung ein, nennen geeignete Werkzeuge, und geben weitere Hinweise auf der Homepage.



Aufwändige Annotationen entfalten ihre Wirkung freilich erst, wenn man nach ihnen auch recherchieren kann. Für die Syntax bedeutet dies vor allem die Suche in Datenbanken, die speziell auf Baumstrukturen zugeschnitten sind. Ebenso gibt es aber auch Korpora, die auf der Text-Ebene annotiert sind, beispielsweise für die Koreferenz zwischen Nominalphrasen (siehe Kap.

4

). Auch dafür benötigt man dann spezielle Abfrage- und Auswertungswerkzeuge, um aus den Daten Erkenntnisse zu ziehen. (In manchen Fällen gestattet bereits das Annotationswerkzeug auch die Recherche, oft ist das aber nicht der Fall.)



Von besonderem Interesse ist es nun, wenn dieselben Primärdaten mit einer Reihe von ganz unterschiedlichen Annotationen versehen sind, aus deren Kombination sich dann – sei es durch manuelle Recherche oder durch statistische Auswertung – neue Erkenntnisse gewinnen lassen. Dies entspricht dem oben (S.

14

) wiedergegebenen Zitat von Brandt u. Rosengren (1992), wonach Ebenen zueinander in Beziehung gesetzt werden, indem man sie an authentischem Material prüft. Möchte man dies an einigermaßen umfangreichem Textmaterial tun, so ist eine Automatisierung mittels einer Datenbank unerlässlich.



Damit dieses Szenario der

Mehrebenenannotation

Mehrebenen-Annotation (engl.

multi-level annotation

) funktioniert, muss eine gewisse Systematik eingehalten werden, damit diese Ebenen einerseits separat recherchiert und ggf. auch verändert werden können. Um andererseits Korrelationen zwischen einzelnen Annotationsebenen aufdecken zu können, müssen alle Annotationen technisch mit den Primärdaten in derselben Weise verbunden sein. Dies wird durch eine sogenannte

standoff

-AnnotationStandoff-Annotation erreicht, bei der sowohl der Primärtext als auch jede Analyse-Ebene jeweils in einer einzelnen Datei gespeichert und die Verbindungen zwischen den Ebenen durch „Zeiger“ realisiert werden. Eine technische Grundlage dafür ist XMLXML (‚eXtensible Markup Language‘) als standardisiertes Austauschformat für Daten zwischen verschiedenen Software-Systemen. Der große Vorteil ist, dass man für die verschiedenen Analyse-Ebenen jeweils spezielle Werkzeuge benutzen kann, die auf die zugrunde liegenden Strukturen zugeschnitten sind und damit ein möglichst effektives Arbeiten erlauben.

 



Abbildung 1.1:



Architektur der Daten-Annotation mit ANNIS



Annotiert man nun jeweils denselben Text mit verschiedenen Werkzeugen auf verschiedenen inhaltlichen Ebenen, müssen anschließend alle resultierenden Annotationen wieder zusammengefügt werden. Dies geschieht in einer linguistischen Datenbank, die dann die Recherche erlaubt. Abb.

1.1

 illustriert diese Konzeption: Die Annotationswerkzeuge auf der linken Seite (die dort genannten werden im Verlauf des Buches kurz angesprochen werden) erzeugen jeweils eigene XML-Dateien, die dann in einem geeigneten Austauschformat (wie zum Beispiel PAULA, Dipper (2005)) zusammengeführt und in die Datenbank (wie zum Beispiel ANNIS; siehe unten) eingespeist werden. Zusätzlich können weitere Werkzeuge für die statistische Auswertung der Daten benutzt werden; dieses Thema werden wir in diesem Buch aber nicht weiter besprechen.



Eine Alternative besteht darin, ein universelleres Annotationswerkzeug zu benutzen, mit dem sich unterschiedliche Typen von Information annotieren lassen; in diesem Fall entfällt die Zusammenführung der verschiedenen Annotationsformate. Es sollte aber stets abgewogen werden, ob dieser Vorteil nicht dadurch gemindert wird, dass das Werkzeug für einige der Annotationsschritte möglicherweise nur bedingt geeignet ist oder eine umständliche Handhabung mit sich bringt.







ANNIS





Weil die Datenbank in der Lage sein muss, für dieselben Primärtexte ganz unterschiedliche Annotationsschemata recherchierbar bereitzustellen und die Suchergebnisse angemessen zu visualisieren, sind Standard-Textdatenbanken für unseren Zweck nicht verwendbar. Die für dieses spezielle Szenario konzipierte linguistische Datenbank ANNIS entstand in einer ersten Version in den frühen 00er Jahren an der Universität Potsdam4 (Dipper u.a., 2004) und wurde später an der Humboldt Universität zu Berlin ausgiebig weiterentwickelt (Krause u. Zeldes, 2016). Es handelt sich um eine open-source software, die in der aktuellen Version

ANNIS3

 von der Webseite ‚corpus-tools.org‘ bezogen werden kann.5



Abbildung 1.2:



Bildschirmabzug von ANNIS3 (Ausschnitt)



ANNIS zeigt die verschiedenen Annotationsebenen zu einem Text jeweils in einer Form, die dem Annotationstyp entspricht. In dem Bildschirmabzug in Abbildung

1.2

 (der nur einen Ausschnitt der Benutzeroberfläche zeigt) sind für denselben Textausschnitt die morphosyntaktischen Informationen, Syntax-Bäume, sowie die Koreferenz-Markierungen (vgl. Kap.

4

) angezeigt. Weitere Annotationsebenen können nach Wunsch aufgeklappt werden.



Die Suchfunktion von ANNIS gestattet die Formulierung von Anfragen, die mehrere Annotationsebenen miteinander verbinden. Angenommen, zu den gespeicherten Texten liegen Annotationen zur Syntax, zum Informationsstatus der Diskursgegenstände und zur rhetorischen Struktur vor, so ist es beispielsweise möglich, alle Textstellen zu finden, in denen



1 eine Präpositionalphrase am Satzanfang steht,

2 der in der dort eingebetteten NP denotierte Diskursgegenstand

brand-new

 ist, und

3 die PP als Satellit der Kohärenzrelation

Concession

 verwendet wird.



Ein entsprechender Satz könnte lauten:

Trotz einer Verwarnung durch die Schiedsrichterin ging Leonie weiter mit großem Elan in die Zweikämpfe.

 Wie die Suchsprache AQL (‚ANNIS Query Language�