Difference between revisions of "Type-Token-Relation"

From Glottopedia
Jump to navigation Jump to search
Line 1: Line 1:
==Definition==
+
==Einleitung==
Die Type-Token-Relation ist eine aus der Statistik übernommene Terminologie zur Unterscheidung zwischen einzelnen sprachlichen Äusserungen ( = [[token]]) und der Klasse der diesen Äusserungen zugrundeliegenden abstrakten Einheiten ( = types). Die Types bilden also das Vokabular eines Korpus ab.
+
Die Type-Token-Relation ist ein Verfahren zur Messung der Beziehung zwischen der Anzahl der Types (= unterschiedliche Wörter) eines Textes zu der Anzahl der Tokens (= Gesamtzahl der Wörter im Text), oder in anderen Worten der Relation zwischen Reichhaltigkeit des Vokabulars und Textlänge.<br>
 +
 
 +
 
 +
==Type-Identifikation==
 +
Es gibt zwei Möglichkeiten die Anzahl der Types in einem Text zu ermitteln:<br>
 +
 
 +
'''1. Die Betrachtung verschiedener Wortformen'''<br>
 +
Berücksichtigt das Konzept von Lexem oder Lemma nicht. Folglich spiegelt das Resultat nicht den Reichtum des Vokabulars, sondern eher die Formenvielfalt des Texts wieder.<br>
 +
 
 +
'''2. Die Betrachtung verschiedener Lexeme'''<br>
 +
Kann zu qualitativen Problemen führen, da die Daten zunächst angemessen vorbereitet werden müssen. Das Ergebnis dieser Datenaufbereitung ist abhängig von der linguistischen Ausrichtung oder erfolgt nach Ad-hoc-Kriterien, d.h. wird aus dem Stehgreif ohne ausreichende theoretische Untermauerung erledigt.<br>
 +
Ein Beispiel für mögliche Probleme bei der Klassifizierung kann sein: „Eine, einer, eines“ sind im Deutschen ein Lexem. Gehören also auch „der, die, das“ oder „er, sie, es“ zu einem Lexem? Das Problem dieses Ansatzes besteht also nicht im Schreiben eines Programms zur Klassifizierung, sondern in gut begründeten Entscheidungen, wo die Grenzziehungen bei der Klassifizierung zu machen sind. Es handelt sich also um ein konzeptuelles Problem, da Sprache nicht natürlicherweise Abgrenzungen oder Klassifzierungen enthält, sondern diese durch den Menschen vorgenommen werden. Bei Nichtbeachtung dieses Problems können zwar Modelle aufgestellt werden. Die durch sie gewonnen Daten und daraus gezogenen Schlussfolgerungen sind jedoch fragwürdig.<br>
 +
 
 +
 
 +
==Interpretation der Ergebnisse==
 +
Die TTR kann im Wesentlichen auf zwei Arten interpretiert werden:<br>
 +
 
 +
'''1. Die TTR als eine Charakteristik des Vokabularreichtums'''<br>
 +
Diese Interpretation ist nur möglich, nachdem die Klassifizierung der Token in Types durchgeführt wurde. Dann ist die TTR charakterisiert durch einen Index (= Relation) oder eine Kurve. Mit steigender Textlänge nimmt der Anstieg neuer Wörter ab. Daher müssen die Indices relativiert werden, da sonst die Vergleichbarkeit zwischen kürzeren und längeren Texten nicht möglich ist. Die Relativierung führt jedoch zu immer wieder neuen Entwicklungen von Indices, was manche Indices irrelevant macht, da keine Vergleichbarkeit mehr gegeben ist. Das gleiche gilt für Kurven, die den Anstieg von neuen Wörtern beschreiben. Obwohl linguistisch unmöglich, nähern sich viele mathematisch der Unendlichkeit. Mathematiker schufen Abhilfe, indem sie die Konvergenz (Näherung) gegen einen endlichen Wert gesichert oder die Kurve an der Textlänge begrenzt haben. Dieser Punkt wurde dann „der Vokabularreichtum des Autors“ genannt. Da sich jedoch alle Texte eines Autors unterschiedlichen Punkten nähern, ist diese Interpretation unpassend. Außerdem kennt jeder Mensch weitaus mehr Wörter als er aktiv in einem bestimmten Text benutzt, weshalb TTR als Messung des Vokabularreichtums eine Fehlbezeichnung ist. Sie könnte höchstens als Messgröße des Vokabularreichtums eines Texts verwendet werden.
 +
 
 +
'''2. Die TTR als Modell des Informationsflusses in einem Text'''<br>
 +
Diese Interpretation wird als korrekt betrachtet, da in einem Text Information vermittelt wird. Eine Möglichkeit Informationen zu übermitteln ist, neue Wörter zu benutzen oder alte Begriffe in verschiedener Weise zu kombinieren. In didaktischen Texten ist der Informationsfluss langsamer, da Wiederholung notwendig ist, d.h. weniger neue Types auftauchen. In der Poesie zum Beispiel ist der Informationsfluss schneller, da Wiederholung hier vermieden wird.
 +
Wenn man Types und Tokens in Verhältnis zueinander setzt und auf der x-Achse die Token und auf der y-Achse die Types aufträgt, dann wird langsamer Informationsfluss durch horizontale Punkte und der neue Informationsinput durch vertikale Sprünge dargestellt.<br>
 +
 
 +
 
 +
==Messverfahren==
 +
Es gibt drei Arten der Ermittlung der TTR, unter die die verschiedenen Formeln zusammengefasst werden können:<br>
 +
 
 +
'''1. Der Position jedes Token (x) wird die Nummer von Types (y) zugeordnet.'''<br>
 +
Diese Methode ist die gebräuchlichste und ergibt eine monoton ansteigende Reihe von <token, type><br>
 +
 
 +
'''2. Die Anzahl der Types bis zu einer Position x wird durch die Position x dividiert.'''<br>
 +
Man erhält eine monoton abfallende Funktion aus <Token, Type/ Token>. Es gibt verschiedene Varianten dieser Methode bei denen nicht jedes Token einzeln betrachtet wird, sondern Tokens z.B. in Hundertergruppen zusammengefasst werden, um Monotonie zu erhalten. Eine theoretische Ableitung des entsprechenden Gesetzes wurde von [[Gustav Herdan]] 1966 geliefert und wird durch folgende Formel repräsentiert:
 +
 
 +
 
 +
y ist die Anzahl der Types, x die Anzahl der Tokens (=Text Position) und b ein empirischer Parameter, der charakteristisch für den jeweiligen Text ist. Das Gesetz ist jeweils mit einem anderen Parameter b gültig, je nachdem ob Wortformen oder Lemmata gezählt werden. Die Auprägung von b zeigt auch den morphologischen Typ der untersuchten Sprache an, wenn Wortformen betrachtet werden. In diesem Fall zeigen morphologisch reiche Sprachen einen schnelleren Anstieg von Wortformen als isolierende Sprachen.<br>
 +
 
 +
'''3. Die Köhler-Galle Methode'''<br>
 +
Bei dieser Methode wird versucht, die Textlänge und Textdynamik bei der Berechung zu berücksichtigen, d.h., der Einfluss der Position eines Types im Text wird bei der Berechung der TTR berücksichtigt.<br>
 +
 
 +
 
 +
x =Position im Text (Anzahl der Tokens an der Stelle x)<br>
 +
tx = Anzahl der Types bis zur Position x (inklusive)<br>
 +
T = Anzahl der Types im gesamten Text<br>
 +
N = Textlänge<br>
 +
TTRx = Type-Token-Relation an der Stelle x<br>
 +
 
 +
 
 +
==Probleme==
 +
Ein Problem der ersten beiden Methoden besteht darin, dass die Textlänge einen Einfluss auf die TTR hat, sodass bei längeren Texten neu auftauchende Types einen geringeren Einfluss auf die TTR haben, je später sie im Text erscheinen. Die TTR repräsentiert hier also eine Eigenschaft des Textes ohne die Textlänge und die Textdynamik zu berücksichtigen. Deswegen wurden andere Modelle und kompliziertere Formeln entwickelt, um diese Faktoren zu berücksichtigen.<br>
 +
 
 +
 
 +
==Anwendungsgebiete==
 +
Die Anwendungsgebiete der TTR sind weitgehend noch nicht erforscht und erprobt. Es gibt jedoch einige Ansätze zur praktischen Anwendung der TTR:<br>
 +
 
 +
*Text-Segmentierung
 +
*Text-Klassifizierung/ -Diskrimination (Textarten, Stile)
 +
*Textvergleich hinsichtlich des Informationsflusses u.ä.
 +
*Untersuchung zu „Was macht einen guten Text aus?“ - Anwendung für die Didaktik
 +
*TTR führt zu einem Sprachproduktionsgesetz
 +
*Untersuchung des Spracherwerbs bei Kindern <br>
 +
 
  
 
==Beispiel==
 
==Beispiel==
Gertrude Steins berühmtes Zitat ''A rose is a rose is a rose.'' besteht aus 9 Token (8 Wörtern und dem Satzendepunkt), aber aus 5 Types: ''A'', ''rose'', ''is'', ''a'' und dem Satzendepunkt. Führt man vorher eine Normalisierung aller Wörter zu Kleinbuchstaben durch, reduziert sich die Anzahl der Types dementsprechend auf 4. Schaltet man der [[Tokenisierung]] ein [[Stemming]] vor, besteht der Satz ''Wir haben alles gesehen, was es zu sehen gab.'' aus 11 Token, aber nur aus 10 Types, da ''gesehen'' und ''sehen'' zum selben Type gehören.''
+
Gertrude Steins berühmtes Zitat ''A rose is a rose is a rose.'' besteht aus 9 Token (8 Wörtern und dem Satzendepunkt), aber aus 5 Types: ''A'', ''rose'', ''is'', ''a'' und dem Satzendepunkt. Führt man vorher eine Normalisierung aller Wörter zu Kleinbuchstaben durch, reduziert sich die Anzahl der Types dementsprechend auf 4. Schaltet man der [[Tokenisierung]] ein [[Stemming]] vor, besteht der Satz ''Wir haben alles gesehen, was es zu sehen gab.'' aus 11 Token, aber nur aus 10 Types, da ''gesehen'' und ''sehen'' zum selben Type gehören.''<br>
 +
 
 +
 
 +
==Herkunft==
 +
Englisch ''type'' - Typus<br>
 +
Englisch ''token'' - Zeichen<br>
 +
 
  
=== Herkunft ===
+
==Literatur==
Englisch ''type'' - Typus
+
*G. Wimmer: The Type-Token relation. In: Köhler, R., Altmann, G., Piotrowski, R. [Hrsg.]: ''Quantitative Linguistics. An International Handbook.'' Berlin, New York : Walter de Gruyter, 2005. pp.361-368.
Englisch ''token'' - Zeichen
+
*R. Köhler, M. Galle: Dynamic Aspects of Text Characteristics. In: L. Hrebícek, G. Altmann (Hrsg.): ''Quantitative Text Analysis.'' Trier, 1993.
 +
*G. Altmann: Wiederholungen in Texten. Bochum, 1988.
 +
*V. Altmann, G. Altmann: Erlkönig und Mathematik. Trier, 2005.
 +
*Laws in Quantitative Linguistics: Herdan dimension. Stand 09.02.2006. (http://www.uni-trier.de/uni/fb2/ldv/lql_wiki/index.php/Herdan_dimension), 10.05.2007
 +
*WikiLingua der Computerlinguistik Trier: Type-Token-Relation. Stand 16.11.2005. (http://www.uni-trier.de/uni/fb2/ldv/ldv_wiki/index.php/Type-Token-Relation), 10.05.2007
 +
*Gejza Wimmer, Gabriel Altmann: On Vocabulary Richness. In: ''Journal of Quantitative Linguistics.'' Date: 1999, Volume: 6, Issue: 1,  p.1-9
  
 
{{wb}}
 
{{wb}}
[[Category:Computational linguistics]]
+
[[Category:De]]
 +
[[Category:Computerlinguistik]]
 +
[[Category:Quantitative Linguistik]]

Revision as of 12:29, 9 November 2007

Einleitung

Die Type-Token-Relation ist ein Verfahren zur Messung der Beziehung zwischen der Anzahl der Types (= unterschiedliche Wörter) eines Textes zu der Anzahl der Tokens (= Gesamtzahl der Wörter im Text), oder in anderen Worten der Relation zwischen Reichhaltigkeit des Vokabulars und Textlänge.


Type-Identifikation

Es gibt zwei Möglichkeiten die Anzahl der Types in einem Text zu ermitteln:

1. Die Betrachtung verschiedener Wortformen
Berücksichtigt das Konzept von Lexem oder Lemma nicht. Folglich spiegelt das Resultat nicht den Reichtum des Vokabulars, sondern eher die Formenvielfalt des Texts wieder.

2. Die Betrachtung verschiedener Lexeme
Kann zu qualitativen Problemen führen, da die Daten zunächst angemessen vorbereitet werden müssen. Das Ergebnis dieser Datenaufbereitung ist abhängig von der linguistischen Ausrichtung oder erfolgt nach Ad-hoc-Kriterien, d.h. wird aus dem Stehgreif ohne ausreichende theoretische Untermauerung erledigt.
Ein Beispiel für mögliche Probleme bei der Klassifizierung kann sein: „Eine, einer, eines“ sind im Deutschen ein Lexem. Gehören also auch „der, die, das“ oder „er, sie, es“ zu einem Lexem? Das Problem dieses Ansatzes besteht also nicht im Schreiben eines Programms zur Klassifizierung, sondern in gut begründeten Entscheidungen, wo die Grenzziehungen bei der Klassifizierung zu machen sind. Es handelt sich also um ein konzeptuelles Problem, da Sprache nicht natürlicherweise Abgrenzungen oder Klassifzierungen enthält, sondern diese durch den Menschen vorgenommen werden. Bei Nichtbeachtung dieses Problems können zwar Modelle aufgestellt werden. Die durch sie gewonnen Daten und daraus gezogenen Schlussfolgerungen sind jedoch fragwürdig.


Interpretation der Ergebnisse

Die TTR kann im Wesentlichen auf zwei Arten interpretiert werden:

1. Die TTR als eine Charakteristik des Vokabularreichtums
Diese Interpretation ist nur möglich, nachdem die Klassifizierung der Token in Types durchgeführt wurde. Dann ist die TTR charakterisiert durch einen Index (= Relation) oder eine Kurve. Mit steigender Textlänge nimmt der Anstieg neuer Wörter ab. Daher müssen die Indices relativiert werden, da sonst die Vergleichbarkeit zwischen kürzeren und längeren Texten nicht möglich ist. Die Relativierung führt jedoch zu immer wieder neuen Entwicklungen von Indices, was manche Indices irrelevant macht, da keine Vergleichbarkeit mehr gegeben ist. Das gleiche gilt für Kurven, die den Anstieg von neuen Wörtern beschreiben. Obwohl linguistisch unmöglich, nähern sich viele mathematisch der Unendlichkeit. Mathematiker schufen Abhilfe, indem sie die Konvergenz (Näherung) gegen einen endlichen Wert gesichert oder die Kurve an der Textlänge begrenzt haben. Dieser Punkt wurde dann „der Vokabularreichtum des Autors“ genannt. Da sich jedoch alle Texte eines Autors unterschiedlichen Punkten nähern, ist diese Interpretation unpassend. Außerdem kennt jeder Mensch weitaus mehr Wörter als er aktiv in einem bestimmten Text benutzt, weshalb TTR als Messung des Vokabularreichtums eine Fehlbezeichnung ist. Sie könnte höchstens als Messgröße des Vokabularreichtums eines Texts verwendet werden.

2. Die TTR als Modell des Informationsflusses in einem Text
Diese Interpretation wird als korrekt betrachtet, da in einem Text Information vermittelt wird. Eine Möglichkeit Informationen zu übermitteln ist, neue Wörter zu benutzen oder alte Begriffe in verschiedener Weise zu kombinieren. In didaktischen Texten ist der Informationsfluss langsamer, da Wiederholung notwendig ist, d.h. weniger neue Types auftauchen. In der Poesie zum Beispiel ist der Informationsfluss schneller, da Wiederholung hier vermieden wird. Wenn man Types und Tokens in Verhältnis zueinander setzt und auf der x-Achse die Token und auf der y-Achse die Types aufträgt, dann wird langsamer Informationsfluss durch horizontale Punkte und der neue Informationsinput durch vertikale Sprünge dargestellt.


Messverfahren

Es gibt drei Arten der Ermittlung der TTR, unter die die verschiedenen Formeln zusammengefasst werden können:

1. Der Position jedes Token (x) wird die Nummer von Types (y) zugeordnet.
Diese Methode ist die gebräuchlichste und ergibt eine monoton ansteigende Reihe von <token, type>

2. Die Anzahl der Types bis zu einer Position x wird durch die Position x dividiert.
Man erhält eine monoton abfallende Funktion aus <Token, Type/ Token>. Es gibt verschiedene Varianten dieser Methode bei denen nicht jedes Token einzeln betrachtet wird, sondern Tokens z.B. in Hundertergruppen zusammengefasst werden, um Monotonie zu erhalten. Eine theoretische Ableitung des entsprechenden Gesetzes wurde von Gustav Herdan 1966 geliefert und wird durch folgende Formel repräsentiert:


y ist die Anzahl der Types, x die Anzahl der Tokens (=Text Position) und b ein empirischer Parameter, der charakteristisch für den jeweiligen Text ist. Das Gesetz ist jeweils mit einem anderen Parameter b gültig, je nachdem ob Wortformen oder Lemmata gezählt werden. Die Auprägung von b zeigt auch den morphologischen Typ der untersuchten Sprache an, wenn Wortformen betrachtet werden. In diesem Fall zeigen morphologisch reiche Sprachen einen schnelleren Anstieg von Wortformen als isolierende Sprachen.

3. Die Köhler-Galle Methode
Bei dieser Methode wird versucht, die Textlänge und Textdynamik bei der Berechung zu berücksichtigen, d.h., der Einfluss der Position eines Types im Text wird bei der Berechung der TTR berücksichtigt.


x =Position im Text (Anzahl der Tokens an der Stelle x)
tx = Anzahl der Types bis zur Position x (inklusive)
T = Anzahl der Types im gesamten Text
N = Textlänge
TTRx = Type-Token-Relation an der Stelle x


Probleme

Ein Problem der ersten beiden Methoden besteht darin, dass die Textlänge einen Einfluss auf die TTR hat, sodass bei längeren Texten neu auftauchende Types einen geringeren Einfluss auf die TTR haben, je später sie im Text erscheinen. Die TTR repräsentiert hier also eine Eigenschaft des Textes ohne die Textlänge und die Textdynamik zu berücksichtigen. Deswegen wurden andere Modelle und kompliziertere Formeln entwickelt, um diese Faktoren zu berücksichtigen.


Anwendungsgebiete

Die Anwendungsgebiete der TTR sind weitgehend noch nicht erforscht und erprobt. Es gibt jedoch einige Ansätze zur praktischen Anwendung der TTR:

  • Text-Segmentierung
  • Text-Klassifizierung/ -Diskrimination (Textarten, Stile)
  • Textvergleich hinsichtlich des Informationsflusses u.ä.
  • Untersuchung zu „Was macht einen guten Text aus?“ - Anwendung für die Didaktik
  • TTR führt zu einem Sprachproduktionsgesetz
  • Untersuchung des Spracherwerbs bei Kindern


Beispiel

Gertrude Steins berühmtes Zitat A rose is a rose is a rose. besteht aus 9 Token (8 Wörtern und dem Satzendepunkt), aber aus 5 Types: A, rose, is, a und dem Satzendepunkt. Führt man vorher eine Normalisierung aller Wörter zu Kleinbuchstaben durch, reduziert sich die Anzahl der Types dementsprechend auf 4. Schaltet man der Tokenisierung ein Stemming vor, besteht der Satz Wir haben alles gesehen, was es zu sehen gab. aus 11 Token, aber nur aus 10 Types, da gesehen und sehen zum selben Type gehören.


Herkunft

Englisch type - Typus
Englisch token - Zeichen


Literatur

  • G. Wimmer: The Type-Token relation. In: Köhler, R., Altmann, G., Piotrowski, R. [Hrsg.]: Quantitative Linguistics. An International Handbook. Berlin, New York : Walter de Gruyter, 2005. pp.361-368.
  • R. Köhler, M. Galle: Dynamic Aspects of Text Characteristics. In: L. Hrebícek, G. Altmann (Hrsg.): Quantitative Text Analysis. Trier, 1993.
  • G. Altmann: Wiederholungen in Texten. Bochum, 1988.
  • V. Altmann, G. Altmann: Erlkönig und Mathematik. Trier, 2005.
  • Laws in Quantitative Linguistics: Herdan dimension. Stand 09.02.2006. (http://www.uni-trier.de/uni/fb2/ldv/lql_wiki/index.php/Herdan_dimension), 10.05.2007
  • WikiLingua der Computerlinguistik Trier: Type-Token-Relation. Stand 16.11.2005. (http://www.uni-trier.de/uni/fb2/ldv/ldv_wiki/index.php/Type-Token-Relation), 10.05.2007
  • Gejza Wimmer, Gabriel Altmann: On Vocabulary Richness. In: Journal of Quantitative Linguistics. Date: 1999, Volume: 6, Issue: 1, p.1-9