Zipfsches Gesetz

From Glottopedia
Revision as of 15:20, 3 July 2012 by Oos (Talk | contribs)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search

Das Zipfsche Gesetz ist ein statistisches Modell, bei dem bestimmte Größen, die nach ihrem Rang angeordneten wurden, einer bestimmten Häufigkeitsverteilung, der Zipf-Verteilung, folgen, die einer Hyperbel \tfrac{1}{n} ähnelt. Benannt ist es nach dem Linguisten George Kingsley Zipf (1902-1950), der mit der Entwicklung des Modells (1935-1949) den Beginn der Quantitativen Linguistik markierte. Dort dient es beispielsweise zur Beschreibung der Verteilung von Worthäufigkeiten über deren Rangfolge in Texten.

Contents

Zipfverteilung

Gegeben sei eine Gesamtheit von N Elementen einer nichtleeren Menge. Sortiert man diese Elemente in eine Rangfolge nach ihrer Häufigkeit, so gilt für die Wahrscheinlichkeit p des Auftretens eines Elementes an der Position n:

p(n) \sim n^{-b}

Die Zipfverteilung entspricht allerdings nicht genau einer Hyperbel (\tfrac{1}{n}), sondern wird durch die harmonische Reihe normiert. Es ergibt sich

p(n) = \frac{1}{H_N} \cdot \frac{1}{n^b}

wobei für den Normierungsfaktor H_N gilt:

H_N = \sum_{i=1}^N \frac{1}{i} \approx ln(N) + 0,577 \approx ln(1,78 \cdot N)

Zusammengefasst folgt damit:

p(n) = \frac{1}{H_N} \cdot \frac{1}{n^b} \approx \frac{1}{n^b \cdot ln(1,78 \cdot N)}

Der Parameter b wird als Fitparameter bezeichnet. Er variiert mit dem zugrundeliegenden Datensatz und passt die Kurve bestmöglich an die tatsächliche Verteilung an. Ursprünglich verfasste Zipf das Gesetz parameterlos, also mit \textstyle b = 1.

Anwendung

Zipf-Verteilung der Worthäufigkeiten im Roman Effi Briest

Seine häufigste Anwendung findet das Zipfsche Gesetz in der Korpuslinguistik und der Quantitativen Linguistik. Hier werden Wörter eines Korpus (oder Textes) nach der Häufigkeit ihres Vorkommens in diesem angeordnet. Die entstehende Zipfverteilung beschreibt dabei, dass das zweite Wort in der Rangfolge in etwa nur halb so oft in dem Korpus vorkommt wie das Wort an erster Stelle, die Häufigkeit des dritten Wortes beträgt nur ungefähr ein Drittel der des ersten Wortes, usw. Dies gilt jedoch nicht für alle Sprachen.

Das Zipfsche Gesetz findet auch Beachtung in anderen wissenschaftlichen Disziplinen, so beispielsweise in der Demografie. Hier folgen Verteilungen der Einwohner pro Stadt einer Zipf-Verteilung. Dieses Phänomen an sich wurde sogar schon 1913 von dem deutschen Physiker Felix Auerbach entdeckt.

Anpassung durch Benoît Mandelbrot

Logarithmischer Plot der Zipf-Verteilung

Die von Zipf aufgestellte Formel passt in der Praxis leider noch nicht so genau, wie es wünschenswert wäre. Die ersten Ranghäufigkeiten sind selten so streng wie beschrieben vielfache voneinander, sondern liegen noch nah beieinander. Auch für die größten Ränge verhält sich Zipfs Formel nicht mehr ganz exakt. Dies ist vor allem erkennbar, wenn Häufigkeit und Rang logarithmisch gegeneinander aufgetragen werden. Zipfs Kurve wird dabei linear und kann nicht mehr gut an den gesamten Wertebereich angepasst werden, da dieser eine annähernd konvexe Kurve beschreibt.

Eine gute Anpassung an die Zipf-Verteilung ist nur abschnittweise möglich.
Zipf-Mandelbrot-Anpassung.

Durch Stellen an den Parametern (inkl. dem Normierungsfaktor) kann höchstens eine abschnittweise Anpassung erreicht werden, jedoch keine hinreichend befriedigende Anpassung an die gesamte Verteilung.

Dieser Umstand liegt zuletzt darin begründet, dass Zipf in erster Linie Linguist war und ihm ein tiefergehendes mathematisches Verständnis zur Verbesserung der Formel fehlte.

Der Mathematiker Benoît Mandelbrot erweiterte die von Zipf entwickelte „einfache“ Verteilungs-Funktion um zwei weitere Parameter und schuf damit eine bessere Anpassung im Bereich der niedrigen und höheren Ränge, indem er die entgegengesetzte Proportionalität um einen weiteren Parameter mergänzte:

p(n) \sim (n+m)^{-b}

oder als Gleichung mit der Konstanten a

p(n) = \frac{a}{(n+m)^{b}}

Für a bedient sich Mandelbrot ebenfalls der N-ten (verallgemeinerten) harmonischen Zahl \textstyle H_{N,m,b} als Normierungsfaktor:

p(n) = \frac{1}{H_{N,m,b}} \cdot \frac{1}{(n+m)^b}

mit

H_{N,m,b} = \sum_{i=1}^N \frac{1}{(i+m)^b}

Literatur

Zeitschriftenartikel:

  • Auerbach, Felix (1913): Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76

Bücher:

  • Zipf, George Kingsley (1949): Human Behavior and the Principle of Least Effort. An Introduction to Human Ecology. Addison-Wesley Press, Cambridge, Mass.