Tokenisierung

Die Tokenisierung beschreibt den Vorgang der Vorverarbeitung eines elektronisch vorliegenden Textes. Bevor ein Dokument analysiert und verarbeitet werden kann, wird dieses in linguistische Einheiten (Sätze, Phrasen, Wörter, Absätze) - sogenannte Token - segmentiert. Dieses Segmentierungsverfahren, welches jedes Wort eines Textes erfasst, wird Tokenisierung genannt.

Kommentare
Probleme bei der Tokenisierung treten insbesondere dann auf, wenn Satzzeichen verschiedene oder gleichzeitig mehrere Funktionen übernehmen können. Während Fragezeichen (?) oder Ausrufezeichen (!) meistens ein Satzende markieren, kann ein Punkt sowohl ein Satzende, eine Abkürzung, ein Trennzeichen innerhalb einer Zahl oder mehreres gleichzeitig darstellen, wobei ein Punkt innerhalb einer Zahl (z.B. 13.200) oder Abkürzung in der Regel für die Tokenisierung unproblematisch ist, da nach dem Punkt in dem Fall kein Leerzeichen folgt, wie es für ein Satzende charakeristisch ist. Hinzu kommen Unterschiede zwischen verschiedenen Sprachen. Während in Deutschland die Trennung der Dezimalstellen durch ein Komma vorgenommen wird, so benutzt man in den USA zu diesem Zweck einen Punkt. Umgekehrt wird in der deutschen Sprache ein Punkt zur Trennung einer größeren Zahl mit mehr als drei Ziffern herangezogen, in den USA hingegen kommt das Komma zum Einsatz. Im Französischen stellt das Komma das Dezimaltrennzeichen dar, größere Zahlen werden mit Hilfe eines Leerraumzeichens unterteilt. Würde man also einen Text in die linguistische Einheit "Satz" unterteilen wollen, so führt das Separieren an jedem gefundenen Punkt (.) zwangsläufig zu einem Fehler.

Herkunft
englisch token - Zeichen, Merkmal, Spielstein