Gesetz

Definition
Die Wissenschaftstheorie definiert den Begriff „wissenschaftliches Gesetz“ als eine bedeutungsvolle universelle Hypothese, die systematisch mit anderen Hypothesen der Fachrichtung verknüpft und gleichzeitig gut durch empirische Daten untermauert ist (cf. Bunge 1967). Ein Gesetz wird universell genannt, weil es jederzeit, überall und für alle Objekte seines Geltungsbereiches gültig ist. Ein bekanntes Beispiel ist das Gravitationsgesetz aus der Physik. Ein Gesetz kann als eine Aussage über universelle Muster in der Welt (der phänomenologische Typ von Gesetz) oder über universelle Mechanismen (der repräsentationale oder mechanistische Typ) betrachtet werden. Während der erste Typ zwei oder mehrere Variablen zueinander in Beziehung setzt, ohne den Ursprung dieser Beziehung (Black-Box-Modell) zu spezifizieren, beinhaltet der zweite eine solche Spezifikation. Ein System von Gesetzen wird Theorie genannt. Der Wert von Theorien und ihren Komponenten, den Gesetzen, liegt nicht nur in ihrer Rolle als ‘Behälter‘ wissenschaftlicher Erkenntnisse, sondern auch in der Tatsache, dass es keine Erklärung ohne wenigstens ein Gesetz geben kann: Eine gültige wissenschaftliche Erklärung (die sogenannte deduktiv-nomologische Erklärung) ist eine Subsumption unter Gesetze unter Beachtung von Randbedingungen. Eine besondere Form der deduktiv-nomologischen Erklärung ist die funktionale Erklärung, die einem erweiterten Schema folgt und nur unter bestimmten Bedingungen möglich ist (selbstorganisierende Systeme wie die biologische Evolution und die Sprache). Gesetze dürfen nicht mit Regeln verwechselt werden, die entweder präskriptive oder deskriptive Werkzeuge ohne irgendeine erklärende Kraft sind; folglich können auch Grammatiken und ähnliche Formalismen nichts erklären. Ein anderer signifikanter Unterschied ist, dass Regeln verletzt werden können - Gesetze (im wissenschaftlichen Sinne) nicht.

Gesetze bei der Untersuchung von Sprache und Text
In der quantitativen Linguistik, der exakten Wissenschaft von Sprache und Text, sind drei Arten von universellen Gesetzen bekannt. Die erste Art erfordert die Form von Wahrscheinlichkeitsverteilungen, d.h. sie macht Vorhersagen über die Anzahl von Einheiten einer gegebenen Eigenschaft. Eine bekanntes Beispiel dieser Art von Gesetz ist das Zipf-Mandelbrot-Gesetz (der Status des entsprechenden Phänomens wurde seit der Zeit George K. Zipfs, der als Erster systematisch die quantitativen Eigenschaften von Sprache von einem wissenschaftlichen Standpunkt aus untersuchte, diskutiert). Das Gesetz setzt (a) die Häufigkeit eines Wortes in einem gegebenen Text (einer beliebigen Sprache) zu der Anzahl der Wörter mit der gegebenen Häufigkeit (Frequenzspektrum genannt) in Beziehung und (b) die Häufigkeit eines Wortes in Relation zu seinem Rang (Rang-Frequenzverteilung). Die erste Formulierung durch Zipf sagte aus, dass etwa die Hälfte der Worttokens eines Textes die Frequenz eins haben (sogenannte hapax legomena), ein Drittel des Rests die Frequenz zwei (dis legomena), ein Viertel des Rests taucht dreimal im Text auf, usw. Zipf nannte dies das harmonische Gesetz. Es wurde später modifiziert und korrigiert durch Benoit Mandelbrot (außerhalb der Linguistik bekannt für seine Fraktalgeometrie). Er leitete das Gesetz aus der Annahme ab, dass Sprachen ihr Lexikon in der Weise organisieren, dass die häufigsten Wörter die kürzesten werden, unter der Verwendung einer Optimierungsmethode (Lagrangescher Multiplikator) unter der Bedingung, dass die Information jedes Kodeelements größer als Null sein muss. Dies resultierte in der berühmten Formel (1), die die Form einer Rang-Frequenz-Verteilung hat: Wenn die Wörter gemäß ihrer Frequenz angeordnet sind, wird dem häufigsten Wort der Rang eins zugeordnet, usw. Die Formel ergibt die Frequenz, die ein Wort eines gegebenen Rangs haben soll:

$$f(r) = \frac{K}{(b+r)^γ},$$

mit f(r) als Frequenz, r - Rang, b und γ - Parameter, und K als normalisierende Konstante. Seit den bahnbrechenden Arbeiten von Zipf und Mandelbrot sind viele weitere Gesetze entdeckt worden. Andere Beispiele von Distributionsgesetzen (in der Morphologie und Lexikologie) sind die Verteilung der Länge, Polysemie, Synonymie, Alter, Wortart usw., (in der Syntax) die Häufigkeitsverteilung von syntaktischen Konstruktionen, die Verteilung ihrer Komplexität, Einbettungstiefe, Information und Position innerhalb der Mutterkonstituente, (in der Semantik) die Verteilung von Definitionskettenlängen in semantischen Netzwerken, semantische Diversifikation, usw. Jede bisher untersuchte Eigenschaft und linguistische Einheit zeigt eine charakteristische Häufigkeitsverteilung.

Die zweite Art von Gesetz wird funktionaler Typ genannt, weil diese Gesetze zwei (oder mehr) Variablen, d.h. Eigenschaften, zueinander in Beziehung setzen. Ein anschauliches Beispiel dafür ist das Menzerath-Gesetz (in der Literatur auch als Menzerath-Altmann-Gesetz bezeichnet), das die Größe linguistischer Konstituenten zu der Größe des entsprechenden Konstrukts in Beziehung setzt. Demnach hängt die (durchschnittliche) Silbenlänge eines Wortes von der Anzahl der Silben, aus denen das Wort besteht, ab; die (durchschnittliche) Teilsatzlänge in einem Satz hängt von der Länge des Satzes (gemessen vermittels der Anzahl der Teilsätze, aus denen er besteht) ab. Die allgemeinste Form dieses Gesetzes ist gegeben durch die Formel:

$$y = Ax^be^(-cx) ,$$

mit y als durchschnittliche Länge der Konstituenten, x als Länge des Konstrukts und A, b, und c als Parameter. Die Parameter dieses Gesetzes sind hauptsächlich durch die Ebene der untersuchten Einheiten bestimmt; sie erhöhen sich schrittweise von der Ebene der Lautlänge zum Satz und zur Supra-Satz-Ebene. Abb. 1 vermittelt eine Vorstellung von einer typischen Kurve.



Fig. 1: Die funktionale Abhängigkeit der durchschnittlichen Silbenlänge von der Wortlänge im Ungarischen. Die Linie repräsentiert die Vorhersage durch das Gesetz; die Markierungen zeigen die Koordinaten der empirischen Datenpunkte an.

Andere Beispiele von funktionalen Gesetzen sind die Abhängigkeit der Wort- (oder Morphem-) Häufigkeit von der Wort- (oder Morphem-) Länge, der Häufigkeit syntaktischer Konstruktionen von ihrer Komplexität, der Polysemie von der Länge, der Länge vom Alter, usw.

Die dritte Art von Gesetz ist das Entwicklungsgesetz. Hierbei ist eine Eigenschaft abhängig von der Zeit. Das bekannteste Beispiel ist das Piotrowski-Gesetz, das die Entwicklung (Anstieg und/oder Abnahme) des Anteils von neuen Einheiten oder Formen über die Zeit repräsentiert. Dieses Gesetz ist ein typischer Wachstumsprozess und kann von einer einfachen Differentialgleichung abgeleitet werden mit der Lösung: , mit p als das Verhältnis der beiden neuen Formen zur Zeit t. c ist der Sättigungswert und a und b sind empirische Parameter. Fig. 2 zeigt den Anstieg von den Formen mit /u/ auf Kosten der älteren Form mit /a/ im deutschen Wort ward>wurde (/vart/ > /vurde/) in der Zeitspanne von 1445 bis 1925.



Fig. 2: Typische Kurve für die Ersetzung einer linguistischen Einheit durch eine neue.

Eine Variante dieser Art von Gesetz basiert auf (diskreter) ‘linguistischer’ anstelle von (kontinuierlicher) physikalischer Zeit. Der einfachste Weg, um linguistische Zeit zu operationalisieren, ist die Bezugnahme auf die Textposition. In mündlichen Texten gibt es eine direkte Übereinstimmung der Sequenz der linguistischen Einheiten mit den Intervallen der physikalischen Zeit, wohingegen geschriebene Texte diese Übereinstimmung in einer etwas indirekteren Art abbilden. Ein typisches Beispiel dieser Variante ist die Type-Token-Relation (TTR), zu Beginn wurde eine einzelne Zahl (der Quotient der Anzahl verschiedener Wörter, der Types, und der Anzahl aller Wörter, der Tokens), zur Bestimmung des Vokabularreichtums eines Textes benutzt. Später wurde ersichtlich, dass dieser Wert aus verschiedenen Gründen unangemessen ist. Stattdessen wird nun an jeder Textposition die Anzahl der bisher aufgetretenen Wörter gezählt, die eine monoton ansteigende Kurve ergibt, weil die Anzahl der benutzten Wörter vor einer gegebenen Textposition sich nicht im Laufe des restlichen Texts verringern kann. Eine direkte theoretische Ableitung des entsprechenden Gesetzes wurde von Gustav Herdan (Herdan, 1966) geliefert und wird durch die einfache Formel repräsentiert: , mit y als der Anzahl der Types, x als die Anzahl der Tokens (=Text Position) und b als ein empirischer Parameter, der für den jeweiligen Text charakteristisch ist. Der Parameter a ist gleich 1, wenn Types und Token in Hinsicht auf dieselbe Einheit (wie in fast allen Fällen) gemessen werden. Das Gesetz ist gültig, ob Wortformen oder Lemmata gezählt werden, nur jeweils mit einem anderen Parameter b. Dieser Parameter ist auch ein Indikator für den morphologischen Typ der untersuchten Sprache, wenn Wortformen betrachtet werden; denn morphologisch reiche Sprachen spiegeln einen schnelleren Anstieg von Wortformen wieder als isolierende Sprachen. Ein Problem der TTR ist, dass sie nicht unabhängig von der Länge des gesamten Textes ist. Daher werden kompliziertere Formeln oder ganz andere Modelle (cf. Popescu, Altmann 2006, 2007) benutzt, um diesen Einfluss zu berücksichtigen. Neuere Forschungen haben ergeben, dass andere linguistische Einheiten ein ähnliches Verhalten in ihrer Textdynamik zeigen (Buchstaben, Morphe, syntaktische Konstruktionen, syntaktische Funktionstypen, usw.). Allerdings müssen, abhängig von der Größe ihres Inventars in der Sprache (welches über verschiedene Größenordnungen variieren kann -- vgl. z.B. die Größe eines Alphabets oder Phonemsystems mit der Größe eines Lexikons), verschiedene Modelle benutzt werden. Die TTR von syntaktischen Einheiten zum Beispiel folgt der Formel: ,	c < 0 Fig. 3 zeigt eine entsprechende Kurve.



Fig. 3: Die TTR von syntaktischen Konstruktionen in einem Text. Die glatte Linie entspricht der Vorhersage durch Formel (5); die unregelmäßige stellt die empirischen Daten dar.

Es gibt viele andere Beispiele von sequentiellen Regularitäten, z.B. Rhythmus, Abstände zwischen Einheiten, Muster von Eigenschaften von Einheiten, fraktale Sequenzen von vielfältigen Eigenschaften, die jedoch typische Eigenschaften von Zeitreihen aufweisen, außerdem chaotische Reihungen, die mittels Hursts or Lyapunovs Koeffizienten gemessen werden können, ‚Runs‘ von Eigenschaften und vieles mehr. (cf. Altmann, 1980, Hrebicek 1997). Solche dynamischen Muster können auf allen Ebenen der linguistischen Analyse, einschließlich der Semantik und Pragmatik, gefunden werden.

Theoriekonstruktion
Momentan gibt es zwei Ansätze beim Aufbau einer linguistischen Theorie (im Sinne der Wissenschaftstheorie): (1) die synergetische Linguistik und (2) Altmanns und Wimmers vereinheitlichte Theorie.

Die grundlegende Idee hinter der Synergetischen Linguistik ist das Ziel, einzelne Gesetze und Hypothesen, die bis jetzt gefunden wurden, in ein komplexes Modell zu integrieren, das die linguistischen Phänomene nicht nur beschreibt, sondern auch ein Mittel bereitstellt, um sie zu erklären. Dies wird erreicht durch die Einbringung des zentralen Axioms, dass die Sprache ein selbstregulierendes und selbstorganisierendes System ist. Eine Erklärung der Existenz, der Eigenschaften und Veränderungen von linguistischen, (allgemeiner: semiotischen) Systemen ist nicht möglich ohne den Aspekt der (dynamischen) wechselseitigen Abhängigkeit von Struktur und Funktion. Die Entstehung und die Entwicklung dieser Systeme muss den Auswirkungen von Kommunikation auf die Struktur (vgl. Bunge 1998 as opposed to Köhler/Martináková 1998) zurückgeführt werden. Dieses Axiom (d.h. die Sicht der Sprache als ein System, das sich in Reaktion auf die Eigenschaften und Erfordernisse seiner Umgebung durch Adaptionsmechanismen in Analogie zur biologischen Evolution entwickelt) macht es möglich, ein Modell auf der Basis der Synergetik aufzustellen. Der synergetische Ansatz (vgl. Haken/Graham 1971; Haken 1978) ist ein spezieller Zweig der Systemtheorie (von Bertalanffy 1968) und kann als ein interdisziplinärer Ansatz beim Modellieren bestimmter dynamischer Aspekte von Systemen, die in verschiedenen Disziplinen für unterschiedliche Untersuchungsgegenstände in analoger Weise auftauchen, charakterisiert werden. Seine Besonderheit, die ihn von anderen systemtheoretischen Ansätzen unterscheidet, ist, dass er sich auf den "spontanen" Anstieg und die Entwicklung von Strukturen konzentriert. Die synergetische Modellbildung in der Linguistik beginnt bei axiomatisch vorausgesetzten Annahmen, die ein semiotischen System erfüllen muss, wie z.B. das Kodierungsbedürfnis (semiotische Systeme müssen Mittel bereitstellen, um bedeutungstragende Ausdrücke zu erzeugen), die Anforderung nach Kodierungs- und Dekodierungseffizienz, Gedächtnisökonomie, der Übertragungssicherheit, der Minimierung des Produktionsaufwands und vielen anderen. Diese Anforderungen können in drei Arten unterteilt werden (vgl. Köhler 1990, 181f): (1) sprachaufbauende Maßgaben, (2) sprachformende Maßgaben, und (3) [control-level] Maßgaben (die Adaptionsmaßgabe, d.h. die Notwendigkeit für eine Sprache sich selbst an verschiedene Umstände anzupassen, und die gegenteilige Stabilitätsmaßgabe). Der zweite Schritt ist die Festlegung von Systemebenen, -einheiten und -variablen, die für die betreffende Untersuchung von Interesse sind. Im dritten Schritt werden relevante Konsequenzen, Effekte und Wechselbeziehungen bestimmt. Hierbei bildet oder systematisiert der Forscher Hypothesen über Abhängigkeiten von Variablen zu anderen, z.B. steigt mit der wachsenden Polytextie eines lexikalischen Elements seine Polysemie monoton, oder, je höher die Position einer syntaktischen Kontruktion ist (d.h. je mehr auf der rechten Seite ihrer Mutterkonstituente ist) desto weniger Informationen enthält sie, usw. Der vierte Schritt besteht in der Suche nach funktionalen Equivalenten und Multifunktionalitäten. Der fünfte Schritt ist die mathematische Formulierung der bisher aufgestellten Hypothesen - eine Voraussetzung für jeden entscheidenden Test - und Schritt 6 ist der empirische Test dieser mathematisch formulierten Hypothesen. Auf diese Weise können für jedes Subsystem der Sprache (d.h. die lexikalischen, morphologischen, syntaktischen usw. Subsysteme), Modelle von beliebiger Komplexität gebildet werden. Die Elemente, die Systemvariablen, repräsentieren linguistische Einheiten oder ihre Eigenschaften, während die spezifischen Verbindungen zwischen diesen Elementen universelle Hypothesen sind, die den Status von Gesetzen erhalten, wenn sie intensiv gestestet und untermauert wurden.

Der andere Ansatz zum Aufbau einer Theorie in der Linguistik ist Altmanns und Wimmers vereinheitlichte Theorie. Die Integration von einzeln existierenden Gesetzen und Hypothesen beginnt mit einer sehr allgemeinen Differentialgleichung (alternativ mit einer Differenzengleichung) und zwei ebenfalls sehr allgemeinen Annahmen: (1) Wenn y eine stetige linguistische Variable (d.h. eine Eigenschaft einer linguistischen Einheit) ist, dann wird ihre Veränderung über die Zeit oder hinsichtlich einer anderen linguistischen Variable in jedem Fall auch von ihren momentanen Wert abhängen. Daher sollte ein entsprechendes mathematisches Modell unter Beachtung der relativen Veränderung der Variablen (dy/y) aufgestellt werden. Ein Beispiel hierfür ist die Veränderung der Wortlänge in Abhängigkeit von der Häufigkeit. Wir wissen, dass Wörter kürzer werden, wenn sie öfter benutzt werden, aber ein (zurzeit) langes Wort wird in größerem Ausmaße gekürzt werden als ein relativ kurzes Wort. (2) Die unabhängige Variable, die einen Effekt auf y hat, muss auch in Hinsicht auf ihre relative Veränderung betrachtet werden (d.h. dx/x). In unserem Beispiel ist es nicht der absolute Anstieg des Gebrauchs eine Wortes, der seine Kürzung bedingt, sondern der relative. Der [diskrete] Ansatz ist dem stetigen analog; man betrachtet die relative Differenz Δyx/yx. Deswegen sind die allgemeinen Formeln: dy/y = g(x)dx und Δyx-1 / yx-1 = g(x). Aufgrund verschiedener Resultate in der Linguistik konnte gezeigt werden, dass es für den stetigen Fall

oder

genügt und für den [diskreten] Fall

oder

Beide sind linguistisch gut zu interpretieren und erbringen die gleichen Resultate wie der synergetische Ansatz. Die große Mehrheit von Gesetzen, die bis jetzt bekannt sind, können von den oben genannten Gleichungen abgeleitet werden (z.B. das Menzerath-Gesetz, das Zipf-Mandelbrot-Gesetz, das Frumkina-Gesetz, alle Gesetze der Länge, Diversifikationsgesetze, TTR, Synonymie-, Polysemie-, Polytextie-Gesetze, morphologische Produktivität, Vokabularwachstum, das Krylov-Gesetz, das Gesetz der Veränderung, etc.). Der [diskrete] und der stetige Ansatz können in den jeweils anderen umgeformt werden (cf. Macutek, Altmann 2007) und ergeben alle [diskreten] Wahrscheinlichkeitsverteilungen, die in der Linguistik genutzt werden. Die Parameter werden als spezifische Sprachkräfte interpretiert, wie aus der Synergetischen Linguistik bekannt.

Beide Modelle, das vereinheitlichte und das synergetische, stellen sich als zwei Repräsentationen der gleichen grundlegenden Annahmen heraus. Das synergetische Modell erlaubt eine leichtere Behandlung von mehrfachen Abhängigkeiten, für die normalerweise partielle Differenzialgleichungen benutzt werden müssen.

Literatur

 * Altmann, Gabriel. 1980. Wiederholungen in Texten. Bochum: Brockmeyer.


 * Bertalanffy, Ludwig van. 1968. General System Theory. Foundations, development, applications. New York: George Braziller.


 * Bunge, Mario. 1967. Scientific Research I, II. Berlin, Heidelberg, New York: Springer.


 * Bunge, Mario. 1998. Semiotic systems. In: Altmann & Koch (eds.). Systems. A new paradigm for the human sciences. Berlin, New York: Walter de Gruyter, 337-349.


 * Haken, Hermann. 1978. Synergetics. Berlin, Heidelberg, New York: Springer.


 * Haken, Hermann & Graham, R.. 1971. Synergetik. Die Lehre vom Zusammenwirken. Umschau 6: 191.


 * Hřebíček, Ludek. 1997. Lectures on Text Theory. Prague: Oriental Institute.


 * Herdan, Gustav. 1966. The advanced theory of language as choice and chance. Berlin: Springer.


 * Köhler, Reinhard. 1995. Bibliography of quantitative linguistics = Bibliographie zur quantitativen Linguistik = Bibliografija po kvantitativnoj lingvistike. Amsterdam: Benjamins.


 * Köhler, Reinhard. Laws of language. In: Colm Hogan, Patrick (ed.). The Cambridge Encyclopedia of the Language Sciences. (to appear).


 * Popescu, Ioan-Iovitz & Altmann, Gabriel. 2006. Some aspects of word frequencies. Glottometrics 13. 23-46.


 * Popescu, Ioan-Iovitz & Altmann, Gabriel. 2007. Some geometric properties of word frequency distributions. Göttinger Beiträge zur Sprachwissenschaft. (in press).


 * Zipf, George Kingsley. 1935. (21968). The Psycho-Biology of Language. An Introduction to Dynamic Philology. Boston: Houghton-Mifflin. Cambridge: M.I.T. Press.


 * Zipf, George Kingsley. 1949. Human Behaviour and the Principle of Least Effort. Reading, Mass: Addison-Wesley.