Korpus

Ein Korpus (Plural Korpora, Genus neutrum) ist eine Sammlung geschriebener oder gesprochener Texte in einer bestimmten Sprache, die nach definierten Kriterien zusammengestellt worden ist.

Kommentare
Dabei wird oft auf eine repräsentative Auswahl von Textsorten und Textgenres und von Themenbereichen geachtet, und oft werden die Texte zudem in ihrer Länge normiert. Heute werden allerdings oft auch einfache Textsammlungen (bei der Zusammenstellung keine definierten Auswahlkriterien angewendet worden sind), als Korpora bezeichnet. Ein Korpus kann u.a. zu folgenden Zwecken verwendet werden:

Bestimmung spezifischer sprachlicher Merkmale; Empirische Überprüfung einer Sprachtheorie; Trainieren von Sprachverarbeitungs-Programmen; Testen von von Sprachverarbeitungs-Programmen.

Es gibt heute länderspezifische allgemeine Korpora, die aus Hunderten Millionen von Wörtern bestehen (z.B. das British National Corpus), aber auch wesentlich weniger umfangreiche, die für ganz spezielle Zwecke erstellt worden sind (z.B. die ATIS-Korpora, d.h. Protokolle von telefonischen Interaktionen zwischen Flugpassagieren und Angestellten von Fluggesellschaften). Die ersten sind nützlich, um rein linguistischen Fragestellungen nachzugehen (z.B. die Frage, wann das Relativpronomen im Englischen weggelassen werden kann). Die zweiten werden verwendet, um sehr bereichsspezifische Fragen zu beantworten (z.B. zur Verbesserung der Spracherkennung und/oder der Benutzerführung in automatischen Auskunftssystemen).