Frumkina-Gesetz

Das Frumkina-Gesetz ist ein wahrscheinlichkeitstheoretisches Modell des Vorkommens von linguistischen Einheiten in Textpassagen.

Die russische Linguistin Reveka M. Frumkina war die Erste, die systematisch die Verteilung von Wörtern in Textblöcken einer festgelegten Länge untersuchte. Später wurde ebenfalls das Vorkommen von syntaktischen Strukturen und syntaktischen Funktionen analysiert. Die erste Entdeckung des Prinzips der Verteilung sprachlicher Einheiten auf Textblöcke geht jedoch auf Zwirner & Zwirner (1935) zurück, die die Verteilung von Lauten in Textblöcken untersuchten und die Poisson-Verteilung an ihre Daten anpassten (Best 2005: 5f.)

Die Daten werden durch das Zählen der Anzahl der Vorkommen der untersuchten Einheit in jeder der Passagen eines Textes erhoben. Die Längen der Passagen sollten entsprechend der allgemeinen Wahrscheinlichkeit der Einheit festgelegt werden, z.B. 100 Wörter für die Analyse von häufigen Wörtern. Die Anzahl der Passagen mit x Vorkommen der entsprechenden Einheit wird als Zufallsvariable betrachtet. Die Wahrscheinlichkeit einer Einheit wird als p bezeichnet, die Wahrscheinlichkeit des Vorkommens aller anderen Einheiten ist 1-p = q. Die Wahrscheinlichkeit p ist auch eine Zufallsvariable, weil die Verwendung eines Wortes von seinem Kotext nicht unabhängig ist. Unter der Annahme, dass p entsprechend der Beta-Verteilung verteilt ist, lautet die Formel

Dieses Modell wurde angewendet auf
 * Bestimmung der Klasse der Einheit (z.B. Wortart eines Wortes)
 * Identifizierung von Textpassagen hinsichtlich terminologischer oder semantischer Kriterien
 * Bestimmung von Schlüsselwörtern
 * Messung von stilistischen Parametern
 * Feststellung von psychischen Krankheiten
 * Konstruktion von lernenden Automaten

Literatur

 * Altmann, Gabriel. 1988. Wiederholungen in Texten. Bochum: Brockmeyer.


 * Best, Karl-Heinz. 2005. Sprachliche Einheiten in Textblöcken. Glottometrics 9. 1-12.


 * Köhler, Reinhard. 2001. The distribution of some syntactic construction types in text blocks. In: Uhlířova, L.; Wimmer, G.; Altmann, G. & Köhler, R. (eds.). Text as a linguistic paradigm: levels, constituents, constructs. Festschrift in honour of Ludek Hřebíček. Trier: WVT, 136-148.


 * Piotrowski, R.G.. 1984. Text, Computer, Mensch. Bochum: Brockmeyer.


 * Paškovskij, V.E. & Srebrjanskaja, I.I.. 1971. Statističeskie ocenki pis´mennoj reči bol´nych šizofreniej. In: Inženernaja lingvistika. Leningrad: Nauka.


 * Zwirner, E., Ezawa, K. (Hrsg.) (1966, 1968, 1969). Phonometrie, Erster-Dritter Teil. Basel/ New York: Karger.


 * Zwirner, E., Zwirner, K. (1935). Lauthäufigkeit und Zufallsgesetz. Forschungen und Fortschritte 11, Nr. 4: 43-45. (Auch in: Zwirner & Ezawa (Hrsg.), Dritter Teil: 55-59.)