Dies ist die noch nicht entgültige Fassung des Beitrags zu Die Künste des Zufalls in einer besonders eingerichteten Version. Er basiert auf meiner Magisterarbeit Algorithmische Textanalyse Zum Zitieren wird die gedruckte Fassung maßgeblich sein.
© Das Copyright liegt beim Verfasser.

Thomas Kamphusmann

Text als Zufall - Zufall als Methode der Textanalyse

Eines Dichters Herbstnebel verhüllte noch in der Frühe die weiten Räume des fürstlichen Schloßhofes, als man schon mehr oder weniger durch den sich dichtenden Schreiber die ganze Jägerei zu Pferde und zu Fuß durcheinander bewegt sah.
Goehte

Vorbemerkung

Es mag in zweierlei Hinsicht verwundern, hier einen Beitrag über algorithmische Analyse von Literatur vorzufinden. Einerseits mag nach all den, nicht nur in diesem Band versammelten, Nachweisen von Zufällen in den Künsten gefragt werden, ob nicht eine algorithmische Analyse gerade auf den anderen Teil, die Regelhaftigkeiten oder Grammatiken der Künste zu zielen habe. Andererseits, was solch streng formulierte Artefakte überhaupt mit Zufall zu tun haben. Letzteres ist schnell damit beantwortet, daß wenn auch nicht der Zufall in seiner ganzen metaphysischen Breite so doch (Un-) Wahrscheinlichkeiten einer algorithmischen Analyse - und das nicht nur in der Physik oder der Informatik, wie die Beiträge von Grupen und Coy gezeigt haben - zugänglich ist. Was die erste mögliche Frage angeht, so steht nicht nur mehr als einem halben Jahrhundert an Bemühungen wenig handgreifliches gegenüber, auch kann es scheinen, daß die Voraussetzung einer grammatischen Struktur von Texten das dünnere Eis darstellt als die Voraussetzung einer vom Zufall oder von Wahrscheinlichkeiten geprägten Struktur - oder wenigstens Oberfläche.

Beginnt man allerdings mit einer Analyse der vielleicht nur scheinbaren Zufälligkeiten von Texten, so sollte sichergestellt sein, daß sie solche Zufälligkeiten auch enthalten, weswegen in einem ersten Schritt ein weiteres Verfahren zufallsbasierter Textproduktion vorgestellt werden soll. Die Kehrseite dieses Verfahrens wird in einem zweiten Schritt für ein analytisches Verfahren genutzt, das eine automatische Segmentierung leistet, die literaturwissenschaftlich plausibel erscheint. Diese wird an einem Beispiel im dritten Teil vorgestellt. Damit wird jedoch auch unterstellt, daß Schreiben, allgemeiner: Textproduktion selber bis zu einem gewissen Grade ein zufallsgesteuerter Prozeß ist und daß dieser Grad vielleicht größer ist, als rationalistische Erklärungsmodelle zugestehen möchten.

Textgenerierung

Das allem weiteren zugrundegelegte Textgenerierungsverfahren darf spätestens seit Shannons Serien der Näherungen zur englischen Sprache(1) als bekannt vorausgesetzt werden und ist, trotz der stürmischen Aufnahme der ebendort und nicht zuletzt damit begründeten mathematischen Informationstheorie als generatives Verfahren in den Künsten verhältnismäßig belanglos geblieben, gelegentlich begegnet es einem in einfachen Implementierungen in Computerpoesieprogrammen(2). Prominenter und erfolgreicher sind vor allem hidden Markov models (HMMs) als Sprachmodell in Programmen zur Erkennung gesprochener Sprache(3). Weiterhin gemein ist den allermeisten dieser Ansätze, daß sie im Gegensatz zu dem hier verfolgten Modell wortbasiert sind und damit dem Dictum Shannons folgen, daß es "einfacher und besser [sei, nach der Näherung dritter Ordnung] zu Worteinheiten überzugehen, als mit Tetragramm ... bis n-gramm-Strukturen weiterzuarbeiten."(4) sowie im Kontext von Bilderkennungsalgorithmen geworden - von ihnen wird hier nicht die Rede sein, ebensowenig von den, noch über die von Bernhard Dotzler als "Einsicht" angeführte Spekulation, daß "das Schreiben eines Satzes [...] ein Markoff-Prozeß"(5) sei, hinausgehenden Phantastereien eines Jacques Bureau: "Die unzähligen Markoffschen Ketten aller Art verbinden unter sich die verschiedenen Etappen jeder Entwicklung. Alles, was die Romane erzählen, alles, was die Menschen miteinander verbindet, ist zweifellos nur ein riesiges Netz Markoffscher Ketten, das wir eines Tages entwirren müssen."(6)

Obwohl es hier um die Strukturanalyse literarischer Texte gehen wird, ist die Vorstellung von Markoffmodell-basierten Textgeneratoren nicht nur zur Illustration, sondern auf der einen Seite deswegen angebracht, weil ihre Ergüsse nahelegen, daß in der für sie verwendeten Datenbasis Informationen (mit-)kodiert sind, die über den engen Wirkungsbereich der Markoffketten hinausgehen. Andererseits nutzen diese Generatoren genau dieselben Daten, die für das vorzustellende Analyseverfahren gebraucht werden.

Im Gegensatz zu den reißenden oder schneidenden, dann werfenden oder würfelnden Textproduktionsverfahren dürfen, ja müssen die Seiten oder die sonstwie lineare Organisation eines für die neue Produktion vorausgesetzten Textes ganz bleiben. Der Einfachheit halber sei ein Prosatext handlicher Länge wie Zweigs Schachnovelle(7) als Beispiel genommen. Zudem benötigt das Verfahren eine willkürlich gewählte natürliche Zahl, die die Länge der Markoffketten bestimmt, für die Beispiele sei die acht gewählt(8), womit, abgesehen vom Verfahren und dem Zufall alles bereit liegt. Zur Einführung soll die händische Implementierung des Algorithmus nach Shannon rekapituliert werden.

Nehmen Sie die ersten acht Zeichen des Textes, die bekanntermaßen lauten: Auf_dem_(9). Von diesen schreiben Sie das erste als erstes des generierten Textes auf und speichern die restlichen sieben, also uf_dem_. Jetzt schlagen Sie das Buch zu ... und an beliebiger Stelle wieder auf, womit dem Zufall Einlaß gewährt wäre.(10) An dieser Stelle beginnend suchen Sie eine Stelle, an der die Folge der gespeicherten sieben Zeichen vorkommen. Wenn Sie Pech haben, gelangen Sie an das Ende der Novelle, dann suchen Sie am Anfang weiter. Im Extremfall kann es vorkommen, daß Sie die sieben Zeichen im gesamten Buch nur an der Stelle finden, von der Sie schon wissen, zu Beginn also am Anfang. Unbeeindruckbar von solchen Fährnissen werden Sie irgendwann eine Stelle gefunden haben, die mit den sieben gespeicherten Lettern beginnt. Die dann den sieben gespeicherten folgende Letter wird an die sieben angehängt, womit Sie wieder acht haben, mit denen das Spielchen von neuem beginnen kann: Den ersten der acht Buchstaben dem angefangenen neuen Text anhängen, die restlichen sieben speichern, Buch zu- und wieder aufschlagen, die sieben suchen, den folgenden anhängen usw.

Für die erste Runde des Spiels kommen 17 Stellen in Betracht, drei setzen das siebenbuchstabiges Fragment uf_dem_ mit B fort, eine mit F, drei mit K, eine mit O drei mit P, je eine mit R und mit S und vier schließlich mit T, wobei bei letztgenanntem das T immer der Anfang von Tisch ist. Zugegeben: das Verfahren ist müh- und langsam und, abgesehen von dem Aufschlagen einer zufälligen Stelle regelrecht stupide. Was liegt also näher, als einen Computer damit zu betrauen.

Dieses Verfahren läßt sich gegenüber der beschriebenen Implementierung durch Vorverarbeitung des zugrundeliegenden Textes erheblich vereinfachen, indem man eine geordnete Liste aller im Text vorkommenden Buchstabenketten aufstellt und für jede dieser Ketten die Häufigkeit ermittelt, mit der sie im Text vorkommt. Dabei sind überlappende Ketten zu notieren, das Fragment Auf_dem_T würde somit sowohl einen Eintrag Auf_dem_ als auch einen uf_dem_T hervorbringen. Suchte man bisher die nächste Stelle, an der die Folge der sieben gesuchten Buchstaben vorkommt, so sucht man nun stattdessen alle Ketten, die mit diesen sieben Buchstaben beginnen und findet eine oder mehrere samt den mit ihnen verzeichneten Häufigkeiten. Das Zufallselement in der Auswahl besteht dann nicht mehr in der Bestimmung des Anfangspunktes der Suche, sondern darin, daß man die verzeichnete Häufigkeit mit einer Zufallszahl multipliziert und die Kette, und damit den nächsten Buchstaben, aussucht, bei der das Produkt von Häufigkeit und Zufallszahl das größte ist(11). Auf genau diese Weise arbeitet die Maschine, auch unter dem Namen Markoffprozeß bekannt, von deren Hervorbringungen ein Ausschnitt wie folgt, abgesehen von der Einrichtung für den Druck, aussehen kann:

Aber schließlich steigerte seinen Weltmeister an uns spielen zu wollen, aber wie sollte ein Feld, einen Schachbrett mit fachmäßig in der Zelle laut schreiber auf neun Züge im voraus ausrichters schon das selbst die vier Monate in mein Vater und begann ich zum ersten Ranges sein, bei dem auf den Donner kommt und konzis an meine Erregung erforderte ich mich in der Zelle erzählen werde, indem ich mich an nicht zu beschäftigt! - Weiß Gott, das ich das nicht wohin; dann wieder von uns errungene Vorteil befand mich in einem gedrucktem, nach Gedruckt vor allem den alten höflich unverständlich die Wellen rauschen und setzte. Und was niemand kann so nicht auf meinen Gedanken die Wellen rauschen und sogar ein abgesondere Anstrengung unbewußt weiteren Zügen zwischen dieser Unbekannten 'Zellen' eingenistet, an jede Bewegung dürfte ausreichen wollte es eine so heilsame und eher beruhigende 'Erledigte er mein Gehirn gleichzeitig mit den vierundsechzig Felder vor unberufene seine Stirne auf einem der nasse Militärpapiere, Polizei, Steuer, Paß, Visum, Gesundheitszeugnis -, daß von jenen Fonds, die völliger Outsider der kaiserlichen Beschränkte Bauern decken. Denn die Verrichtsgegenständlich diese eine Partie gegen die verständlich bin, und von der Gedanken lesen, bedeutet - eine wilde Kraft war er sich zu rechnen konnte ich mir unangenehmen könne; selbst damit die schon der Anonymus, der seinen Karren, eine Minuten auf dem Tisch zurückgehalten. Hinter allerhand Fragens und Spannkraft zu schieben. Aber das Vergnügen und seinem Sessel herumzurücken aus Prinzip war mir die Nerven einen scheint den Meister seine alte, verläßlichkeit war, eigentlich nicht er halten? Hatte er sich in meiner Kategorie. Ich verneinte.

Zwei Effekte stellen sich im Laufe einer längeren Zeit ein, während derer man sich so generierten Texte zu Gemüte führt(12). Zum einen, und das scheint wohl kaum überraschend, erscheinen diese Texte als ziemlich deutsch und man gewinnt mehr und mehr das Gefühl, daß sie sich hinsichtlich ihrer grammatischen Devianz und dem teilweisen Fehlen thematischer Kohärenz nur graduell von in den Kanon der Literaturgeschichtsschreibung aufgenommenen experimentellen Texte unterscheiden, gelegentlich erschienen sie gegenüber Arno Schmidtschen Texten als regelrecht konventionell. Zweitens entwickelt man ein Gefühl dafür, welche Texte die Basis, genauer: die Datenbasis für die generierten geliefert haben, man beginnt Fragmente zu erkennen, die man als typisch für bestimmte Autoren oder Texte ansieht, auch wenn man über diese Fragmente im Originaltext recht achtlos hinweggelesen hat(13).

Vor der Maschine

Für die Analyse ist damit, auch wenn vielleicht noch kaum erkennbar, mit dem Generierungsverfahren das Fundament gelegt. Bevor der Analysealgorithmus selbst vorgestellt wird, seien einige Kommentare vorangestellt.

Ich werde mich hier nicht, abgesehen von der folgenden Fußnote, mit den bisher vorgeschlagenen quantifizierenden Ästhetiken auseinandersetzen, ihr gründliches Scheitern erscheint methodisch notwendig, solange sie ästhetische Maße in niedrig dimensionierten Räumen und mit fragwürdigen Kategorien versuchen. Hier ist, insbesondere für den deutschsprachigen Raum, die Bense-Schule zu nennen, die sich in diesem Zusammenhang durch ein eklatantes Mißverhältnis zwischen Euphorie hinsichtlich der informationstheoretisch zu begründenden "Tieferlegung der Fundamente"(14) ästhetischer Theorien und dem Verständnis der Fundamente ebenjener Informationstheorie auszeichnete.(15)

Die Idee, die mit dem hier vorzustellenden Ansatz verfolgt wird, ist vielmehr die, die Texte selber in ihrer durch das skizzierte Modell formalisierten Materialität als Datenbank anzusehen, die hinreichend ist, bei entsprechender Auswertung Aussagen über ihre, der Texte, Struktur abzuleiten, also den klassischen Münchhausenschen Theorieansatz ein weiteres Mal in die Literaturwissenschaft einzuführen und zumindest zunächst und für diesen Beitrag sowohl die Hebe- und Tragzeuge der Linguistik als auch deren und natürlich auch der Literaturwissenschaft Scheren ausser Acht zu lassen, unabhängig davon, wo sie ansetzen und was sie abzuschneiden vorgeben.

Der Strukturanalyse oder, in einer ersten technischen Näherung, der Segmentierung, gilt deswegen das primäre Augenmerk, weil sie die grundlegende Operation darstellt, mit deren Hilfe die Einheiten, die zum Zwecke des Erkenntnisgewinns in Folge oder Opposition gestellt werden, allererst gewonnen werden.

Hier kommt eine, zugegebenermaßen weder algorithmisch noch aus dem Material begründbare, Entscheidung für die Zieleinheit ins Spiel(16), die auf eine der kleinen Einheiten, aus denen man sich Prosa(17) aufgebaut denken kann. Nachdem satz- oder noch kleinteiliger basierte linguistische Versuche zur Literatur-, genauer zur Text- oder Korpusanalyse, nicht als erfolgreich in das Methodenrepertoire eingegangen sind, stehen als nächstgrößere Einheiten die "Szenen" oder, vielleicht nur mit anderen Worten, die "Bedeutungseinheiten" bereit, andererseits können diese, ebenfalls in einer ersten Näherung, als die größten Einheiten angesehen werden, zu denen man bei einer schrittweise feiner werdenden Segmentierung von Texten zu kommen hat. Die These ist also hier, daß sich die Einheit einer Bedeutungseinheit über ein Modell ihrer und der Materialität ihres Kontextes bestimmen läßt, ohne die Bedeutung oder ähnliches als Analysevoraussetzung dieser Einheit zu benötigen(18).

Operationaler formuliert wird diese These auf den Versuch hinauslaufen, eine Maschine zu bauen, die ein beliebiges Stück Prosa zwischen urvordenklich und Perry Rhodan und wohl noch darüber hinaus so zerlegt, daß sie eine Folge von Stellen bezeichnet, die in der Ordnung ihrer Wichtigkeit das Stück Prosa erst in zwei, dann in drei, vier und eventuell noch mehr Segmente zerlegt, wobei die Stellen so gelegt sein sollen, daß sich das je vorangehende von dem je folgenden nach Begriffen szenischer Beschreibung unterscheidet. Zur Validierung der Ergebnisse sollte man dabei fast jedwede Sekundärliteratur zu dem untersuchten Text heranziehen können, um recht unabhängig von Theorien, Methoden und Erkenntnisinteressen die immer wieder gleichen Stellen zitiert zu finden und dies als hinreichende Evidenz dafür zu interpretieren, daß die so bestimmten Stellen die zentralen des Textes sind(19).

Ein letztes Wort vorweg: Das weitgehende Fehlen ausgeführter Verweise auf literaturwissenschaftliche oder linguistische Modell- und Theoriebildungen kann, sollte aber nicht, den Schluß nahelegen, daß die hier verwendeten Modelle keinerlei Beziehungen zu jenen unterhalten können. Das Augenmerk wird hier jedoch auf die Evaluation konkreter Methoden gelegt und es wird, danach, weiteren Arbeiten vorbehalten bleiben, die Gemeinsamkeiten und Unterschiede zwischen solchen stochastischen Modellen und (schon längst) wesentlich ausgearbeiteteren Text- und Sprachmodellen und -theorien zu untersuchen. Insofern ist die zentrale Referenz hier vor allem Shannon, bei dem das textgenerierende Verfahren entliehen ist(20), und mit dem davon ausgegangen wird, "daß ein genügend komplexer stochastischer Prozeß eine befriedigende Vorstellung einer diskreten Quelle gibt"(21) und daß jede Sprache als eine dieser diskreten Quellen angesehen werden damit. Nebenbei legt dies einen Literaturbegriff nahe, der mehr mit Zufall als mit Plan zu tun hat. Und damit:

Welcome to the Machine.

Zugrunde gelegt werden soll als Korpus ein einzelner Text, als Beispiel werde ich weiterhin Zweigs Schachnovelle verwenden. Von diesem wird in einem ersten Schritt die Liste aller Septagramme mitsamt den jeweils möglichen Folgebuchstaben sowie deren Häufigkeiten aufgestellt, also die schon erwähnte Liste der Oktagramme. Über den geringfügig vorbereiteten Text(22) läßt man dazu ein Fenster laufen, daß den Blick auf acht Lettern gewährt, diese Folgen werden notiert, ihre Häufigkeit mitgezählt und in eine alphabetisch sortierte Liste geschrieben, bevor das Fenster um eine Letter vorwärts bewegt wird. Einige Ausschnitte der so entstandenen Liste für die Schachnovelle sehen folgendermaßen aus (horizontal sortiert).

`...`	`dem Sal 1`	`dem Sch 1`	`dem 5pi 1`	`dem Spr 3`
`dem Tis 7`	`dem Tod 12`	`dem Tur 1`	`dem Unb 1`	`dem Une 1`
`dem Unt 1`	`...`	`Tisch d 1`	`Tisch g 2`	`Tisch l 1`
`Tisch s 1`	`Tisch u 4`	`Tisch z 6`	`Tisch, 6`	`Tische 2`
`Tische, 1`	`Tisches 1`	`Tischgl 1`	`...`	`auf ci, 1`
`auf c4, 1`	`auf d7, 1`	`auf das 20`	`auf dem 19`	`auf dems 1`
`auf den 13`	`auf der 5`	`auf die 15`	`auf dies 4`	`auf durc 1`
`auf ein 1`	`auf eine 7`	`auf eing 1`	`auf etwa 1`	`auf f7 . 1`
`auf fünf 1`	`auf für 1`	`auf g4 . 1`	`auf g5 u 1`	`auf glei 1`
`auf h7 . 1`	`auf h7?" 1`	`auf ich 1`	`auf ihn 4`	`auf ihne 1`
`auf ihre 3`	`auf in d 1`	`auf jede 1`	`auf kein 1`	`auf mehr 1`
`auf mein 3`	`auf mich 1`	`auf neun 1`	`auf nich 1`	`auf rich 1`
`auf sech 1`	`auf sein 8`	`auf sich 4`	`auf subt 1`	`auf und 15`
`auf uns 1`	`auf unse 4`	`auf vert 1`	`auf! Laß 1`	`auf, da 1`
`auf, das 1`	`auf, daß 2`	`auf, dem 1`	`auf, im 1`	`auf, ind 1`
`auf, nic 1`	`auf, wie 1`	`auf. "Ic 1`	`auf. "So 1`	`auf. "Wi 1`
`auf. Abe 1`	`auf. Und 2`	`aufbesch 1`	`...`	`dem Salo 1`
`dem Scha 8`	`dem Schi 1`	`dem Spie 1`	`dem Spri 3`	`dem Tisc 7`
`dem Tode 1`	`dem Turn 1`	`dem Unbe 1`	`dem Unen 1`	`...`
`em Salon 1`	`em Schac 12`	`em Schif 2`	`em Schla 1`	`em Schli 1`
`em Schlo 1`	`em Sein 1`	`em Sesse 2`	`em Siege 1`	`em Spiel 4`
`em 5prin 3`	`em Stich l`	`em Tage 1`	`em Tempo 1`	`em Tisch 9`
`em Tode 1`	`em Ton z 1`	`em Turni 1`	`em Unbek 1`	`em Unbel 1`
`em Unend 1`	`em Unmut 1`	`em Unter 1`	`...`	`f dem Be 1`
`f dem Br 2`	`f dem Fe 1`	`f dem Ki 1`	`f dem Kö 1`	`f dem Oz 1`
`f dem Pa 1`	`f dem Pr 2`	`f dem Rü l`	`f dem Sc 3`	`f dem Ti 4`
`f dem be 1`	`f dem gr 1`	`f dem ka 1`	`...`	`isch Ehr 1`
`isch an 1`	`isch bra 1`	`isch dur 1`	`isch erd I`	`isch erg 1`
`isch fes I`	`isch gel 2`	`isch har 1`	`isch in 4`	`isch lag 1`
`isch mit 1`	`isch mör 1`	`isch nac 1`	`isch rei 1`	`isch sei 1`
`isch sin 1`	`isch sta 1`	`isch unb 1`	`isch und 6`	`isch veh 1`
`isch ver 1`	`isch von 1`	`isch vor 3`	`isch zu 4`	`isch zu, 1`
`isch zu. I`	`isch zur 1`	`isch übe 1`	`isch, Be 1`	`isch, Tü 1`
`isCh, de 2`	`isch, so 1`	`isch, um 1`	`isch. Ab 1`	`isch. Cz 1`
`isch. Ei 2`	`ische Ab 1`	`ische An 1`	`ische Be 1`	`ische De 1`
`ische Er 2`	`ische Fe 1`	`ische Fo 1`	`ische Ge 2`	`ische Ma 1`
`ische Me 1`	`ische Na 2`	`ische Pr 1`	`ische Wu 1`	`ische Ze 1`
`ische am 1`	`ische fo 1`	`ische fü 1`	`ische hi 1`	`...`
`m Tisch 6`	`m Tisch, 1`	`m Tische 2`	`...`	`Tisch du 1`
`Tisch ge 2`	`Tisch la 1`	`Tisch se 1`	`Tisch un 4`	`Tisch zu 6`
`Tisch, B 1`	`Tisch, T 1`	`Tisch, d 2`	`Tisch, s 1`	`Tisch, u 1`
`Tische a 1`	`Tische f 1`	`Tische, 1`	`Tisches 1`	`Tischglo 1`
`...`	`uf dem B 3`	`uf dem F 1`	`uf dem K 2`	`uf dem 0 1`
`uf dem P 3`	`uf dem R 1`	`uf dem 5 3`	`uf dem T 4`	`uf dem b 1`
`uf dem g 1`	`uf dem k 1`	`...`	`...`	`...`

Man gewinnt damit eine in gewisser Weise mittelnde Darstellung des Buchstabenmaterials innerhalb eines eng begrenzten Kontextes, da in diesem "Modell" des Textes keinerlei Information über die Gleich- oder Ungleichverteilung dieser Fragmente enthalten ist. Ebensowenig basiert ein derartiges Modell auf linguistischen Kategorien, ganz zu schweigen von etwaigen höherwertigen Kategorien wie Sinn oder Bedeutung. Wenn ein derartiges Modell, wie zu sehen war, als Generator in der Lage ist, halbwegs wiedererkennbare und zuordnenbaren Text zu produzieren, dann, so lautet die treibende Vermutung, muß in diesem Modell hinlänglich genaue Information über gewisse Eigenheiten des Textes gespeichert sein. Unterstellt werden muß zudem, daß diese Eigenheiten strukturrelevant sind. Wenn dann Struktur nur aus Ungleichverteilung strukturrelevanter Eigenheiten ent- oder besteht, dann müßten, wenn man einen strukturierten Text gegen sein mittelndes Modell strukturrelevanter Eigenheiten analysiert, Aussagen über die Struktur des Textes möglich sein ... soviel zu Münchhausen. Die Crux für algorithmische Verfahren zur Analyse literarischer (und wohl auch alltagssprachlicher) Texte ist im Gegensatz zum Einsatz von Markoffmodellen in diesem Zusammenhang, daß die eben so leichthin erwähnten "strukturrelevanten Eigenheiten" vor der Analyse bekannt sein müssen, egal ob sie auf lexikalischer, syntaktischer oder, noch schlimmer, semantischer Ebene zu liegen kommen, was weder hinsichtlich möglicher Wilkür- noch möglicher Tautologievorwürfe besonders vorteilhaft ist. Noch weniger vorteilhaft ist es hinsichtlich der Analyse lexikalisch falscher, ungrammatischer oder, ebenfalls besonders schlimm, sinnloser Texte. Und zu schlechter letzt benötigen derartige Analysen nicht zu unterschätzende Mengen von Fachwissen - der sich vor allem im Ressourcenhunger der KI-Forschung niederschlägt.

Zurück zur Maschine. Stellt man nun, in einem zweiten sequentiellen Durchlauf durch den Text für jede Stelle des Textes, die als Beginn einer achtbuchstabigen Kette angesehen wird, fest, wie häufig der vorkommende Übergang der folgenden sieben Lettern auf die achte im Vergleich zur durchschnittlichen Häufigkeit aller im untersuchten Text vorkommenden Übergänge dieser sieben Lettern auf eine achte ist, so läßt sich aus diesem Verhältnis ein numerischer Wert für jede Stelle errechnen. Positiv sei er, wenn die Häufigkeit des vorliegenden Übergangs geringer als die für diese ,Situation' durchschnittliche ist, Null, wenn der Übergang genau die durchschnittliche Häufigkeit hat und negativ, wenn der faktische Übergang häufiger als der mögliche Durchschnittsübergang ist. Außerdem sei der Betrag des Wertes in einem noch genauer zu bestimmenden Sinne proportional zum vorliegenden Unterschied. Dieses Verhalten könnte man im einfachen Fall dadurch erreichen, daß man die Häufigkeit des vorkommenden Übergangs von der durchschnittlichen Häufigkeit der aktuell möglichen Übergänge subtrahiert.

Ein Beispiel: Gegeben sei eine Stelle im Text, die von dem Fragment auf_dems gefolgt wird, und die im Sinne des Markoffmodells als Übergang von auf_dem auf s interpretiert wird. In der Liste finden sich zwei Oktagramme, die mit auf_dem beginnen: auf_dem_ mit der Häufigkeit 19 und auf_dems mit der Häufigkeit 1. Insgesamt finden sich also im zugrundegelegten Korpus insgesamt 20 Übergänge von auf_dem auf irgendeine andere Letter, wobei zwei sich diese auf zwei Möglichkeiten verteilen, was zu einem Durchschnitt von 10 führt. Wenn für jede Stelle des Textes der geforderte Wert durch einfache Substraktion zu bestimmen ist, wäre derjenige für diese Stelle 10-1=9. Für die Stellen, die von dem Fragment auf_dem_ gefolgt werden wäre der entsprechende Wert jeweils 10-19=-9.

Damit erhält man eine Folge von Werten, die in kaum zu erkennender (Un-) Regelmäßigkeit um Null herumhüpft, für jede Letter einen. So genommen lassen sich an dieser Folge lediglich mehr oder minder lange Passagen ausmachen, die mehr oder weniger konstant im negativen oder positiven Bereich sind, sowie Bereiche, denen nicht einmal diese Regularität zugesprochen werden kann. Wenn man jedoch die Werte kulminiert, also für jede Stelle die Summe aller vorangehenden Werte als Wert aufmalt, so erhält man keine Kurve, die an zufällige Verteilung erinnert, sondern eine, die sich durch eine klare Gliederung auszeichnet. Daß sie bei Null beginnt, ist evident, daß sie ebenfalls bei Null endet, verdankt sie einer Normierung, die in die eben geschilderte Berechnung der einzelnen Werte eingeht und die für das weitere Verfahren nicht notwendig wäre(23). Mit diesem Verfahren sieht Zweigs Schachnovelle wie folgt aus.

Mit dieser Abbildung eines beliebigen Textes auf eine Folge von Werten ist das Problem einer Strukturanalyse jedoch nicht gelöst, sondern nur verschoben. So froh man sein kann, offensichtlich nicht eine weitere Form des Rauschens gefunden zu haben und so sehr es an diesem Punkt lockt, die Stellen der markantesten Täler und Gipfel im Text aufzusuchen, so überflüssig wäre eine solche Kurve, wenn man sie in derselben Weise "lesen" und "interpretieren" würde, wie man auch den ihr zugrundeliegenden Text lesen und interpretieren könnte - ohne An- und Abführungen anbringen zu müssen. Was nötig ist, ist somit ein Verfahren, das eine solche Folge von Werten nach markanten Stellen absuchen kann, auch nach solchen, die nicht die Klarheit des Postkarten-Matterhorns haben. Erschwert wird dieses Problem erstens und vor allem dadurch, daß man eine nach Wichtigkeit geordnete Liste bekommen möchte, zweitens, daß die Verfahren der Filterung und Frequenzanalyse, wie sie zur Analyse digitalisierter natürlicher Vorgänge verwendet werden können, für diese unnatürlichen, weil sprunghaften Folgen nicht anwendbar sind(24). Das stattdessen benutzte Verfahren baut dementsprechend nicht auf den kanonischen auf, sondern versucht, ohne dabei als Modell kognitiver Abläufe interpretiert werden zu können, lediglich die gestellten Anforderungen zu erfüllen und kann allein an der Genauigkeit der bestimmten Stellen im Hinblick auf die entsprechenden Stellenangaben in der Sekundärliteratur gemessen werden.

Es ist so einfach wie wirkungsvoll und besteht in einer schrittweisen Aproximation der Kurve durch einen Streckenzug. Da Anfang und Ende eines Textes als sowieso ausgezeichnete Stellen eines Textes angenommen werden können, werden in der initialen Annäherung die beiden Punkte, die in der Graphik diese beiden Stellen repräsentieren, verbunden, aufgrund der Normierung der Werte entspricht dies einer Strecke auf der x-Achse entspricht. Nun wird in jedem Aproximationsdurchlauf der Punkt gesucht, der am weitesten von diesem Streckenzug entfernt liegt, wobei als Entfernung nicht die euklidische benutzt wird, sondern lediglich der senkrechten Abstand in Rechnung gestellt wird. Durch diese Suche wird im ersten Schritt der Punkt gefunden, der den betragsmäßig größten Wert hat. Dieser gefundene Punkt wird zu einem Stützpunkt der Streckenfolge, so daß die Annäherung der Kurve durch die Streckenfolge nach dem ersten Durchlauf vom Anfang über den gefundenen ersten Punkt zum Ende geht. Dieses Spielchen(25) wird solange wiederholt, bis die Wertefolge hinreichend gut durch die Streckenfolge angenähert erscheint oder bis die Anzahl der Aproximationsstellen hinreichend groß erscheint oder bis eine vorher festgelegte maximal zulässige Abweichung unterschritten wird(26).

Die so errechneten Stellen seien zum Schluß für die Schachnovelle angeführt und einer händischen Segmentierung entgegengestellt, die in Form einer Inhaltsangabe vorgestellt ist:

Auf einem Südamerikadampfer gelingt es dem Erzähler, den mitreisenden Weltschachmeister Czentovic kennenzulernen, nachdem ihn ein Bekannter kurz vor der Abreise dessen Biographie kurz referiert hat. Durch ostentatives Schachspielen mit einem reichen aber etwas tumben und ebenfalls schachbegeisterten Reisebekannten namens McConner gelingt das Arrangement von Partien gegen Czentovic, die erwartungsgemäß ausgehen. Einzig die letzte wird aufgrund der Intervention eines bisher unbekannten Reisegefährten, des Protagonisten Dr. B. überraschend remis gespielt. Daraufhin drängt McConner auf eine Partie Dr. B. gegen Czentovic, die von dem Erzähler arrangiert werden soll. Der Erzähler sucht Dr. B. auf und erfährt in einem langen Monolog von diesem seine unerhörte Rettung vor den Schergen des III. Reiches. Diese Geschichte macht nach allgemeiner Meinung den zentralen Teil der Novelle aus, in ihr spielt das Schachspiel eine zentrale Rolle. Es gelingt Dr. B. nämlich in seiner Gefangenschaft ein Schachlehrbuch zu stehlen, das den Anstoß fortwährender und schließlich nur noch imaginierter Spiele gegen sich selbst darstellt. Diese Spiele führen bei ihm zu einer Persöhnlichkeitsspaltung, die schließlich katatone Züge annimmt. Aufgrund dieser wird er, da für die Nazis nutzlos, aus der Haft entlassen und emigriert, auf ebendiesem Dampfer, nach Südamerika. Nebenbei wird die Partie (es werden zwei werden) arrangiert, sie bestimmen den Schlußteil. Die erste Partie wird von Dr. B. gewonnen, innerhalb der Revanche gerät er jedoch wieder in einen Erregungszustand, und halluziniert einen völlig anderen Spielverlauf als den faktisch beobachtbaren, weswegen die Partie abgebrochen und die Novelle beendet wird.

Wenn dieser Absatz als Inhaltszusammenfassung zu akzeptieren ist, sollte die algorithmische Segmentierung als gelungen gelten können, da sie mit einer Genauigkeit von ungefähr einem Satz eben diese Stellen in der Schachnovelle bezeichnet. In der zweiten Abbildung findet sich der errechnete Streckenzug eingedruckt, als Abbruchkriterium wurde die Unterschreitung einer 20-prozentigen Abweichung, relativ zur maximalen Amplitude der Folge angesetzt(27). Die Stützpunkte sind in der Reihenfolge ihrer Errechnung nummeriert.

Dieses Abbruchkriterium führt zur Markierung von insgesamt acht Stellen, die den Kurvenverlauf, abgesehen von einem Segment, recht gut aproximiert. Die ersten beiden errechneten Stellen markieren hier das Ende und den Anfang der Erzählung Dr. B.s, mithin die gröbste Unterteilung der Schachnovelle. Die genauen Textstellen sind:(28) Und nun werden Sie begreifen, - er bezieht sich mit dieser Schlußformel auf die mit dem vorigen Satz zuende gegangene Schilderung des Märtyriums - warum ich mich so ungehörig und wahrscheinlich unverständlich Ihren Freunden gegenüber benommen. Ich schlenderte doch nur [1]ganz zufällig durch den Rauchsalon, als ich Ihre Freunde vor dem Schachbrett sitzen sah (91 f.), was sich auf seine erste Intervention bezieht. Genauso präzise wird der Beginn seines Berichts markiert: Es war dies eine ziemlich komplizierte Geschichte[2], und sie könnte allenfalls als kleiner Beitrag gelten zu unserer lieblichen großen Zeit. Wenn Sie eine halbe Stunde Geduld haben ..."< Er hatte auf den Deckchair neben sich gedeutet: Gerne folgte ich seiner Einladung. Wir waren ohne Nachbarn. Dr. B. nahm die Lesebrille von den Augen, legte sie zur Seite und begann: (48). Die dritte errechnete Stelle markiert den ersten großen Gipfel der Kurve, es ist die Stelle, in der Czentovic in das Geschehen integriert wird, also die Erfüllung der Bedingung der Möglichkeit weiterer Schachspiele. Anfangs amüsierte mich diese ehrgeizige Verbissenheit; - gemeint ist McConners Verbissenheit, solange spielen zu wollen, bis er gewänne - schließlich nahm ich sie nur mehr als unvermeidliche Begleiterscheinung für m[3]eine eigentliche Absicht hin, den Weltmeister an unseren Tisch zu locken. Am dritten Tage gelang es und gelang doch nur halb. (27) Von den verbleibenden fünf errechneten Stellen fallen vier in die Erzählung Dr. B.s und markieren dort die vier wichtigsten Momente. Zunächst ist es der Moment, in dem Dr. B. in Isolationshaft genommen wird, womit der Grund für sein so unbedingtes Verlangen nach Lektüre gelegt wird. Auf den ersten Blick sah das mir zugewiesene Zimmer durchaus nicht unbe[8]haglich aus. Es hatte eine Tür, ein Bett, einen Sessel, eine Waschschüssel, ein vergittertes Fenster. Aber die Tür blieb Tag und Nacht verschlossen, auf dem Tisch durfte kein Buch, keine Zeitung, kein Blatt Papier, kein Bleistift liegen, das Fenster starrte eine Feuermauer an; rings um mein Ich und selbst an meinem eigenen Körper war das vollkommene Nichts konstruiert. (56) Die zweite dieser vier Stellen markiert den Moment, in dem Dr. B., während er auf ein Verhör warten muß, des Buches in einer Uniformtasche ansichtig wird und beginnt, es in seinen Besitz zu nehmen. Hypnotisiert starrten meine Augen auf die kleine Wölbung, die jenes Buch innerhalb der Tasche formte, sie glühten diese eine unscheinbare Stelle an, als ob sie ein Loch in den Mantel brennen wollten. Schließlich konnte ich meine Gie[4]r nicht verhalten; unwillkürlich schob ich mich näher heran. (67) Die dritte dieser Stellen bezeichnet schließlich den Beginn der, auch im Text kurz zuvor als schizophren bezeichneten Bewußtseinstrennung, die für das lediglich vorgestellte Spiel gegen sich selber nötig ist, während die vierte die Manifestation katatoner Erregung markiert, deren Schilderung den letzte Moment seiner Isolationshaft darstellt. Zunächst der Beginn: Und da ich nichts anderes hatte als dies unsinnige Spiel gegen mich selbst, fuhr meine Wut, meine Rachelu[6]st fanatisch in dieses Spiel hinein. Etwas in mir wollte recht behalten, und ich hatte doch nur dieses andere Ich in mir, das ich bekämpfen konnte; so steigerte ich mich während des Spiels in eine fast manische Erregung. (82) Und das Ende, das die Krise beschreibt und damit den Grund für die Entlassung aus der Haft: Ich magerte ab, ich schlief unruhig und verstört, ich brauchte beim Erwachen jedesmal ei[5]ne besondere Anstrengung, die bleiernen Augenlider aufzuzwingen; manchmal fühlte ich mich derart schwach, daß, wenn ich ein Trinkglas anfaßte, ich es nur mit Mühe bis zu den Lippen brachte, so zitterten mir die Hände; aber kaum das Spiel begann, überkam mich eine wilde Kraft: ich lief auf und ab mit geballten Fäusten, und wie durch einen roten Nebel hörte ich manchmal meine eigene Stimme, wie sie heiser und böse 'Schach' oder 'Matt!' sich selber zuschrie. (87 f.) Bleibt also nur noch eine errechnete Stelle, jene, die den Schlußteil segmentiert. Es ist die Stelle, an der der amtierende Weltmeister von dem in Schachkreisen unbekannten Dr. B. geschlagen wird, es ist diese Stelle, die, wohl bewußt mit der Novellendefinition spielend, das angeblich unerhörte, hier unerwartete, Ereignis beginnen läßt und damit die, auf die der Titel zuallererst bezogen werden muß. Aber da geschah plötzlich bei einem Zuge[7] Czentovics das Unerwartete. Sobald Dr. B. merkte, daß Czentovic den Springer faßte, um ihn vorzuziehen, duckte er sich zusammen wie eine Katze vor dem Ansprung. Sein ganzer Körper begann zu zittern, und kaum Czentovic den Springerzug getan, schob er scharf die Dame vor, sagte laut triumphierend: "So! Erledigt!", lehnte sich zurück, kreuzte die Arme über der Brust und sah mit herausforderndem Blick auf Czentovic. (99)

Anmerkungen

(1)Claude E. Shannon, Die mathematische Theorie der Kommunikation, in Claude E. Shannon und Warren Weaver, Mathematische Grundlagen der Informationstheorie. München: Oldenbourg, 1976, S. 41-130, München, 1976, hier S. 53 ff.

(2)So auch in meinem Delphi V. 2.1-Projekt, das im Karl-Ernst Osthaus-Museum, Hagen, arbeitet. Vgl. auch Michael Fehr, Clemens Krümmel und Markus Müller (Hg.), Platons Höhle. Das Museum und die elektronischen Medien, Köln: Wienand, 1995, S. 96 ff.

(3)Zur Einführung vgl. bspw. L. Rabiner und B. Juang, An introduction to hidden Markov models, IEEE ASSP Magazine, S. 4-16, 1986. Neben den kanonischen Modellen sind eine Vielzahl abgewandelter Modelle im Umlauf. So finden sich auf dem e-print Server http://xxx.lanl.gov (oder dessem deutschen Spiegel http://xxx.uni-augsburg.de) in dem Computational Linguistics-Archiv schon bei flüchtiger Durchsicht aggregate and mixed-order, approximate N-Gram und nonuniform-Markov models. Allen gemein ist, daß sie weniger aus theoretischen als vielmehr aus praktischen Erwägungen der Speicher- oder Laufzeiteffizienz oder aus Gründen der Qualitätsoptimierung innerhalb bestimmter Aufgabenstellungen entwickelt wurden. Selbst Titel, die den Gebrauch von HMMs zur Definition linguistischer Einheiten versprechen, beginnen die Verifikation ihres Modells mit den Worten: "In order to provide a useful tool in speech recognition ..." R. Nag, S. C. Austin und F. Fallside, Using Hidden Markov Models to Define Linguistic Units, in Proceedings of the 11th International Conference on Acoustics, Speech, and Signal Processing, Bd. 3, S. 2239-2242, Piscataway, NJ: IEEE, 1986, hier S. 2240.

(4)Shannon, a.a.O., S. 54

(5)Hans-Joachim Flechtner, Grundbegriffe der Kybernetik. Eine Einführung}, Stuttgart: Wissenschaftl. Verlagsgesellschaft, 1966, nach Dotzler in Die Künste des Zufalls.

(6)Jacques Bureau, Zeitalter der Logik, Düsseldorf, Wien, 1973, S. 154, mit Dank an Peter Gendolla für diesen Hinweis.

(7)Stefan Zweig, Schachnovelle, Frankfurt, 1992.

(8)Diese Wahl gründet sich in Erfahrungswerten und korrespondiert mit der durchschnittlichen Wortlänge (aufgerundet) plus der zwei Zeichen, die als Wortbegrenzung dieses einschließen. Eine systematische Überprüfung, ob diese Korrespondenz auch den Grund angibt, steht allerdings noch aus. Zur Zusammenfassung dieser Erfahrungen Vgl. Thomas Kamphusmann, Algorithmische Textanalyse, Magisterarbeit, Ruhr-Universität Bochum, 1995, S. 123

(9)Spatien werden hier im Fließtext als `_' notiert, Zeilen- und Absatzbrüche gelten nicht als Zeichen.

(10)Mehr Zufall wird uns nicht begegnen, es sei denn, daß wir nachweisen könnten, daß der zugrundegelegte Text auf dieselbe Art und Weise wie der jetzt entstehende entstanden ist. Dieser Nachweis wäre von oben erwähntem Hans-Joachim Flechtner zu führen.

(11)Genaugenommen sind die Verfahren nicht äquivalent, da in dem zuletzt beschriebenen die Ungleichverteilung der Ketten im Text ignoriert wird, was ein einfaches Beispiel zeigt: Gesetzt den Fall, daß zwei Ketten (a) gleichhäufig sind, (b) die einzigen in der Liste sind, die abgesehen von der letzten Letter gleich sind, dann hängt die Wahrscheinlichkeit, eine bestimmte dieser Ketten als nächste zu finden bei dem erstgenannten Verfahren von der Entfernung der beiden Ketten voneinander ab, während sie beim Listen-basierten Verfahren gleich ist. Der Unterschied dieser mittelnden Modellierung zu der Ungleichverteilung der Markoffketten im Originaltext dürfte mit ein Grund für das Funktionieren des vorzustellenden Algorithmus sein.

(12)Hier sei das Geständnis eingefügt, daß ich im Laufe meines Studiums der Neueren Deutschen Literaturwissenschaft mehr von diesen als von Schiller gelesen habe. Der Abschluß des Studiums war dann auch eine Arbeit über Algorithmische Textanalyse, die außer dem hier in größter Knappheit Vorgestellten einen methodenhistorischen Teil sowie weitere Musteranalysen zu Kleists Das Erdbeben in Chili und Die Marquise von O., Goethes Novelle und Plenzdorfs Die neuen Leiden des jungen W. enthält. (unveröffentlichtes Ms., Bochum 1995, ca. 130 S.)

(13)Ein strengerer Nachweis dieser Ähnlichkeiten, der Tests mit einer größeren Anzahl kompetenter Leser einschließen müßte, steht aus. Er erscheint allerdings auch wenig dringlich, da bisher Evidenz als hinreichendes Argument angesehen wurde.

(14)Max Bense, Aesthetische Information. aesthetica II, Krefeld, Baden-Baden: Agis-Verlag, 1956, S. 26.

(15)Selbst wenn man die Fehleinschätzungen hinsichtlich sinnesphysiologischer Konstanten, die beispielsweise bei Rul Gunzenhäuser, Maß und Information als ästhetische Kategorien. Einführung in die ästhetische Theorie G. D. Birkhoffs und die Informationsästhetik, (Internationale Reihe Kybernetik und Information, Bd.7) Baden-Baden, 1975, und Helmar Frank, Kybernetische Analyse subjektiver Sachverhalte, Quickborn b. Hamburg: Schnelle, 1964, eine große argumentative Rolle spielen, ignoriert, bleiben fundamentale Schwächen. So wird beispielsweise trotz der Erkenntnis, daß "nicht bei der numerischen Berechnung, [...] sondern in der Herausarbeitung und Festlegung der kritischen Betrachtungsstufe und deren Zeichenrepertoire [...] fast immer ein Spielraum für Interpretationsmöglichkeiten" (Gunzenhäuser, a.a.O., S. 132) liegt, bei der Analyse eines Vasarely-Entwurfs, der ein großes und ein kleines Quadrat, sowie 313 Ellipsen unterschiedlicher Exzentrizität und Achsenrichtung enthält, der Unterschied zwischen Quadraten und Ellipsen vollständig ignoriert und stattdessen eine dreimalige Superierung durchgeführt, von der man nicht zuletzt aufgrund des völligen Fehlens anderweitiger Begründungen den Eindruck bekommen kann, daß sie im Hinblick auf das zu errechnende Ergebnis gewählt wurde. Zu dergestalten Problemen kommt, daß in vielen Rechenexempeln auf das Franksche "Auffälligkeitsmaß" bezug genommen wird, von dem behauptet wird, daß abgesehen vom beliebig wählbaren Faktor k [...] dieser Ausdruck [t=-k log f (k=const.)] genau das Maß der Shannonschen Information eines Wortes mit der Seltenheit f (Gunzenhäuser, a.a.O., S. 68) ist. Dies ist doppelt falsch da einerseits sich bei Shannon nirgendwo ein Informationswert eines isolierten Wortes findet, vor allem aber wäre der entsprechende Term -k f log(f), vgl. Shannon, a.a.O., S. 60. Daß dieser Unterschied fundamental ist, zeigt einerseits eine Grenzwertbetrachtung für x -> 0, die für log(x) -Unendlich und für xlog(x) 0 ergibt, andererseits ist y=log(x) eine streng monoton steigende Funktion, die eben nicht das in Franks und Gunzenhäusers Argumentation zwar zweifelhafte aber zentrale absolute Minimum bei e^-1 (ca. 0,37 oder 37%) hat (vgl. Gunzenhäuser, a.a.O., S. 113 f).
Was die tiefergelegten Fundamente angeht, so kann sich eine summarische Kritik mit dem Verweis darauf bescheiden, daß sie zwar versuchen, die Terminologie Shannons zu benutzen, die dahinter stehenden Konzepte jedoch gründlich verfehlen. So finden sich, abgesehen von vielen andren Stellen, die hier anzuführen möglich wäre, Verwechselungen von Transport und Emission (vgl. Max Bense, Einführung in die informationstheoretische Ästhetik. Grundlegung und Anwendung in der Texttheorie, Reinbek, 14. Aufl., 1969, S. 34), von Repertoire und Material (vgl. Bense, 1969, S. 18) und von numerisch angebbarer Wahrscheinlichkeit und Unkenntnis (vgl. Max Bense, Programmierung des Schönen. Allgemeine Texttheorie und Textästhetik. aesthetica IV, Baden-Baden, Krefeld: Agis-Verlag, 1960, S. 22). Ausführlicher zu George David Birkhoff, Max Bense, Wilhelm Fucks, Rul Gunzenhäuser und Helmar Frank in Kamphusmann, a.a.O., S. 5-50.

(16)...das allerdings selber weniger Algorithmus als eben Spiel, nämlich Signifikantenspiel ist und doch wieder Literaturwissenschaft heißt

(17)Daß das Verfahren auf `hinreichend große' Datenbasen angewiesen ist, sollte keiner weiteren Begründung bedürfen. Ob es für größere lyrische Korpora interpretationswürdige Ergebnisse liefert, ist bisher ungetestet.

(18)Prägnant ist die Gegenposition zu diesem Versuch von Eco formuliert worden: "Doch wir wissen andererseits, daß jede Bemühung, eine signifikante Form zu definieren, ohne sie bereits mit Sinn ausgestattet zu haben, selbst vergeblich und illusorisch ist: denn jeder absolute Formalismus ist nichts anderes als ein maskierter \frq Inhaltismus\flq . Formale Strukturen zu isolieren, bedeutet zugleich, ihre Relevanz zu erkennen; relevant aber sind sie nur im Hinblick auf eine umfassende Hypothese, in welcher der Sinn des Kunstwerks bereits antizipiert wird." Umberto Eco, Lector in fabula, München, 2. Aufl., 1994, S. 13.

(19)Tatsächlich ließ sich eine weitgehende Übereinkunft unterschiedlicher Sekundärliteratur auf die wichtigen Stellen finden. Unter diesem Aspekt sei auf David E. Wellbery (Hg.), Positionen der Literaturwissenschaft. 8 Modellanalysen am Beispiel von Kleists Das Erdbeben in Chili, München, 2. Aufl., 1987 verwiesen, selbst da noch, wo "eine übergeordnete [methodologische] Kategorie" nur noch "durch eine Leerstelle" (ebd., S. 10) bezeichnet werden kann.

(20)Vgl. Shannon, a.a.O.

(21)Shannon, a.a.O., S. 55

(22)Die Vorbereitungen betreffen vor allem die Zurücknahme satztechnischer Aufbereitung.

(23)Allerdings erleichtert diese Normierung abgesehen von einem Entgegenkommen gegenüber intuitiven Vorstellungen, die sich mit Metaphern wie Spannungsbogen verbinden, zudem die Einrichtung für den Druck, da die unnormierten Folgen fallende Tendenz haben. Der Grund dafür liegt darin, daß über den gesamten Text gesehen die häufigen Stellen negative Summanden in der Anzahl ihrer Häufigkeit einbringen, während die per definition seltenen positiven Summanden nur einen geringen positiven Beitrag zur Endsumme beitragen. Die verwendete Normierung gleicht diese quadratische Überbewertung entsprechend aus.

(24)Abgesehen von einer nur weiteren Verschiebung des Problems im Hinblick auf die Sortierung der Stellen nach Wichtigkeit verbieten sich Methoden wie Fourier-Analyse oder Polynominterpolation aufgrund der Laufzeit solcher Verfahren, vgl. Robert Sedgewick, Algorithmen, Bonn u.a., 1991, S. 620 ff. zu Algorithmen der Polynominterpolation und Ulrich Tietze und Christoph Schenk, Halbleiterschaltungstechnik, Berlin, Heidelberg, New York, 2. aktualisierter Nachdruck der 9. Aufl., 1991, S. 791 ff. zu Fragen der Fourier-Anlayse. Ein grundsätzlicherer Kommentar zu diesem Problem läßt sich aus dem von Wellbery formulierten Ziel von Literatursemiotik herauslesen, "den Text seiner verführerischen Unschuld (seiner scheinbaren Natur) zu entkleiden und ihn als Produkt kultureller Arbeit zu erkennen" (David E. Wellbery, Semiotische Anmerkungen zu Kleists Das Erdbeben in Chili, in ders. (Hg.), a.a.O., S. 70. An Problemen wie diesem wird der Unterschied zwischen digitalisierter Natur und einer genuinen Digitalität von (zumindest gedruckter) Sprache handgreiflich.

(25)...das kein Signifikantenspielchen mehr ist ...

(26)Vielleicht auch bis zu dem (Zeit-)Punkt, der Feierabend bedeutet - auch bei solchen algorithmischen Verfahren wird man kaum um derartige heuristische Entscheidungen herumkommen.

(27)Dieses Kriterium hat sich, ebenso wie die gewählte Markoffkettenlänge, im Laufe der Arbeit an den Musteranalysen in Kamphusmann, a.a.O. als verwendbarer Einstiegswert ergeben. Es führt nicht nur in diesem Fall zu einer Segmentierung, die als Grobstruktur des jeweiligen Textes angesehen werden kann.

(28)In eckigen Klammern und an die errechnete Stelle in die Zitate eingetragen ist die laufende Nummer der entsprechenden Approximation, in runden Klammern folgt dem Zitat die Seitenangabe der erwähnten Ausgabe.