Difference between revisions of "Zipfsches Gesetz"

From Glottopedia
Jump to: navigation, search
(Created page with " Das Zipfsche Gesetz ist ein statistisches Modell, bei dem bestimmte Größen, die nach ihrem Rang angeordneten wurden, einer bestimmten Häufigkeitsverteilung, der Zipf-Verte...")
 
Line 1: Line 1:
  
Das Zipfsche Gesetz ist ein statistisches Modell, bei dem bestimmte Größen, die nach ihrem Rang angeordneten wurden, einer bestimmten Häufigkeitsverteilung, der Zipf-Verteilung, folgen, die einer Hyperbel <math>\tfrac{1}{n}</math> ähnelt. Benannt ist es nach dem Linguisten [[George Kingsley Zipf]] (1902-1950), der mit der Entwicklung des Modells (1935-1949) den Beginn der [[Quantitativen Linguistik]] markierte. Dort dient es beispielsweise zur Beschreibung der Verteilung von Worthäufigkeiten über deren Rangfolge in Texten.
+
Das Zipfsche Gesetz ist ein statistisches Modell, bei dem bestimmte Größen, die nach ihrem Rang angeordneten wurden, einer bestimmten Häufigkeitsverteilung, der Zipf-Verteilung, folgen, die einer Hyperbel <math>\tfrac{1}{n}</math> ähnelt. Benannt ist es nach dem Linguisten [[George Kingsley Zipf]] (1902-1950), der mit der Entwicklung des Modells (1935-1949) den Beginn der [[Quantitativen Linguistik]] markierte. Dort dient es beispielsweise zur Beschreibung der Verteilung von Worthäufigkeiten in Texten.
  
 
== Zipfverteilung ==
 
== Zipfverteilung ==
  
Gegeben sei eine Gesamtheit von <math>N</math> Elementen einer nichtleeren Menge. Sortiert man diese Elemente in eine Rangfolge nach ihrer Häufigkeit, so gilt für die Wahrscheinlichkeit <math>p</math> des Auftretens eines Elementes an der Position <math>n</math>:
+
Gegeben sei eine Gesamtheit von <math>N</math> Elementen einer nichtleeren Menge. Sortiert man diese Elemente in eine Rangfolge nach ihrer Häufigkeit, so verhält sich die Wahrscheinlichkeit <math>p</math> des Auftretens eines Elementes zu deren Position <math>n</math>:
 
:<math>p(n) \sim n^{-b}</math>
 
:<math>p(n) \sim n^{-b}</math>
  
Die Zipfverteilung entspricht allerdings nicht genau einer Hyperbel (<math>\tfrac{1}{n}</math>), sondern wird durch die harmonische Reihe normiert. Es ergibt sich
+
Die Zipfverteilung beschreibt also eine Hyperbelartige Kurve, die weiterhin durch ein Zahl der harmonischen Reihe normiert wird. Es ergibt sich
 
:<math>p(n) = \frac{1}{H_N} \cdot \frac{1}{n^b}</math>
 
:<math>p(n) = \frac{1}{H_N} \cdot \frac{1}{n^b}</math>
 
wobei für den Normierungsfaktor <math>H_N</math> gilt:
 
wobei für den Normierungsfaktor <math>H_N</math> gilt:
:<math>H_N = \sum_{i=1}^N \frac{1}{i} \approx ln(N) + 0,577 \approx ln(1,78 \cdot N)</math>
+
:<math>H_N = \sum_{i=1}^N \frac{1}{i} \approx ln(N) + 0,577 \approx ln(1,78 \cdot N)</math>
  
 
Zusammengefasst folgt damit:
 
Zusammengefasst folgt damit:
:<math>p(n) = \frac{1}{H_N} \cdot \frac{1}{n^b} \approx \frac{1}{n^b \cdot ln(1,78 \cdot N)}</math>
+
:<math>p(n) \approx \frac{1}{n^b \cdot ln(1,78 \cdot N)}</math>
  
 
Der Parameter <math>b</math> wird als Fitparameter bezeichnet. Er variiert mit dem zugrundeliegenden Datensatz und passt die Kurve bestmöglich an die tatsächliche Verteilung an. Ursprünglich verfasste Zipf das Gesetz parameterlos, also mit <math>\textstyle b = 1</math>.
 
Der Parameter <math>b</math> wird als Fitparameter bezeichnet. Er variiert mit dem zugrundeliegenden Datensatz und passt die Kurve bestmöglich an die tatsächliche Verteilung an. Ursprünglich verfasste Zipf das Gesetz parameterlos, also mit <math>\textstyle b = 1</math>.
Line 19: Line 19:
 
== Anwendung ==
 
== Anwendung ==
  
<p>
 
 
[[Image:Effi-plot-zipf.png|thumb|Zipf-Verteilung der Worthäufigkeiten im Roman ''Effi Briest'']]
 
[[Image:Effi-plot-zipf.png|thumb|Zipf-Verteilung der Worthäufigkeiten im Roman ''Effi Briest'']]
  
 
Seine häufigste Anwendung findet das Zipfsche Gesetz in der [[Korpuslinguistik]] und der Quantitativen Linguistik. Hier werden Wörter eines Korpus (oder Textes) nach der Häufigkeit ihres Vorkommens in diesem angeordnet. Die entstehende Zipfverteilung beschreibt dabei, dass das zweite Wort in der Rangfolge in etwa nur halb so oft in dem Korpus vorkommt wie das Wort an erster Stelle, die Häufigkeit des dritten Wortes beträgt nur ungefähr ein Drittel der des ersten Wortes, usw. Dies gilt jedoch nicht für alle Sprachen.
 
Seine häufigste Anwendung findet das Zipfsche Gesetz in der [[Korpuslinguistik]] und der Quantitativen Linguistik. Hier werden Wörter eines Korpus (oder Textes) nach der Häufigkeit ihres Vorkommens in diesem angeordnet. Die entstehende Zipfverteilung beschreibt dabei, dass das zweite Wort in der Rangfolge in etwa nur halb so oft in dem Korpus vorkommt wie das Wort an erster Stelle, die Häufigkeit des dritten Wortes beträgt nur ungefähr ein Drittel der des ersten Wortes, usw. Dies gilt jedoch nicht für alle Sprachen.
</p>
+
 
<p>
+
Das Zipfsche Gesetz findet auch Beachtung in anderen wissenschaftlichen Disziplinen, so beispielsweise in der Demografie. Hier folgen Verteilungen der Einwohner pro Stadt einer Zipf-Verteilung. Auf dieses Phänomen wurde sogar schon 1913 der deutsche Physiker Felix Auerbach aufmerksam.
Das Zipfsche Gesetz findet auch Beachtung in anderen wissenschaftlichen Disziplinen, so beispielsweise in der Demografie. Hier folgen Verteilungen der Einwohner pro Stadt einer Zipf-Verteilung. Dieses Phänomen an sich wurde sogar schon 1913 von dem deutschen Physiker Felix Auerbach entdeckt.
+
</p>
+
  
 
== Anpassung durch Benoît Mandelbrot ==
 
== Anpassung durch Benoît Mandelbrot ==

Revision as of 14:36, 5 July 2012

Das Zipfsche Gesetz ist ein statistisches Modell, bei dem bestimmte Größen, die nach ihrem Rang angeordneten wurden, einer bestimmten Häufigkeitsverteilung, der Zipf-Verteilung, folgen, die einer Hyperbel \tfrac{1}{n} ähnelt. Benannt ist es nach dem Linguisten George Kingsley Zipf (1902-1950), der mit der Entwicklung des Modells (1935-1949) den Beginn der Quantitativen Linguistik markierte. Dort dient es beispielsweise zur Beschreibung der Verteilung von Worthäufigkeiten in Texten.

Contents

Zipfverteilung

Gegeben sei eine Gesamtheit von N Elementen einer nichtleeren Menge. Sortiert man diese Elemente in eine Rangfolge nach ihrer Häufigkeit, so verhält sich die Wahrscheinlichkeit p des Auftretens eines Elementes zu deren Position n:

p(n) \sim n^{-b}

Die Zipfverteilung beschreibt also eine Hyperbelartige Kurve, die weiterhin durch ein Zahl der harmonischen Reihe normiert wird. Es ergibt sich

p(n) = \frac{1}{H_N} \cdot \frac{1}{n^b}

wobei für den Normierungsfaktor H_N gilt:

H_N = \sum_{i=1}^N \frac{1}{i} \approx ln(N) + 0,577 \approx ln(1,78 \cdot N)

Zusammengefasst folgt damit:

p(n) \approx \frac{1}{n^b \cdot ln(1,78 \cdot N)}

Der Parameter b wird als Fitparameter bezeichnet. Er variiert mit dem zugrundeliegenden Datensatz und passt die Kurve bestmöglich an die tatsächliche Verteilung an. Ursprünglich verfasste Zipf das Gesetz parameterlos, also mit \textstyle b = 1.

Anwendung

Zipf-Verteilung der Worthäufigkeiten im Roman Effi Briest

Seine häufigste Anwendung findet das Zipfsche Gesetz in der Korpuslinguistik und der Quantitativen Linguistik. Hier werden Wörter eines Korpus (oder Textes) nach der Häufigkeit ihres Vorkommens in diesem angeordnet. Die entstehende Zipfverteilung beschreibt dabei, dass das zweite Wort in der Rangfolge in etwa nur halb so oft in dem Korpus vorkommt wie das Wort an erster Stelle, die Häufigkeit des dritten Wortes beträgt nur ungefähr ein Drittel der des ersten Wortes, usw. Dies gilt jedoch nicht für alle Sprachen.

Das Zipfsche Gesetz findet auch Beachtung in anderen wissenschaftlichen Disziplinen, so beispielsweise in der Demografie. Hier folgen Verteilungen der Einwohner pro Stadt einer Zipf-Verteilung. Auf dieses Phänomen wurde sogar schon 1913 der deutsche Physiker Felix Auerbach aufmerksam.

Anpassung durch Benoît Mandelbrot

Logarithmischer Plot der Zipf-Verteilung

Die von Zipf aufgestellte Formel passt in der Praxis leider noch nicht so genau, wie es wünschenswert wäre. Die ersten Ranghäufigkeiten sind selten so streng wie beschrieben vielfache voneinander, sondern liegen noch nah beieinander. Auch für die größten Ränge verhält sich Zipfs Formel nicht mehr ganz exakt. Dies ist vor allem erkennbar, wenn Häufigkeit und Rang logarithmisch gegeneinander aufgetragen werden. Zipfs Kurve wird dabei linear und kann nicht mehr gut an den gesamten Wertebereich angepasst werden, da dieser eine annähernd konvexe Kurve beschreibt.

Eine gute Anpassung an die Zipf-Verteilung ist nur abschnittweise möglich.
Zipf-Mandelbrot-Anpassung.

Durch Stellen an den Parametern (inkl. dem Normierungsfaktor) kann höchstens eine abschnittweise Anpassung erreicht werden, jedoch keine hinreichend befriedigende Anpassung an die gesamte Verteilung.

Dieser Umstand liegt zuletzt darin begründet, dass Zipf in erster Linie Linguist war und ihm ein tiefergehendes mathematisches Verständnis zur Verbesserung der Formel fehlte.

Der Mathematiker Benoît Mandelbrot erweiterte die von Zipf entwickelte „einfache“ Verteilungs-Funktion um zwei weitere Parameter und schuf damit eine bessere Anpassung im Bereich der niedrigen und höheren Ränge, indem er die entgegengesetzte Proportionalität um einen weiteren Parameter mergänzte:

p(n) \sim (n+m)^{-b}

oder als Gleichung mit der Konstanten a

p(n) = \frac{a}{(n+m)^{b}}

Für a bedient sich Mandelbrot ebenfalls der N-ten (verallgemeinerten) harmonischen Zahl \textstyle H_{N,m,b} als Normierungsfaktor:

p(n) = \frac{1}{H_{N,m,b}} \cdot \frac{1}{(n+m)^b}

mit

H_{N,m,b} = \sum_{i=1}^N \frac{1}{(i+m)^b}

Literatur

Zeitschriftenartikel:

  • Auerbach, Felix (1913): Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76

Bücher:

  • Zipf, George Kingsley (1949): Human Behavior and the Principle of Least Effort. An Introduction to Human Ecology. Addison-Wesley Press, Cambridge, Mass.