nltk => Häufigkeitsverteilungen

Einführung

Dieses Thema konzentriert sich auf die Verwendung der Klasse nltk.FreqDist ().

Häufigkeitsverteilung zur Zählung der häufigsten Lexikalischen Kategorien

NLTK bietet die FreqDist-Klasse, mit der eine Häufigkeitsverteilung anhand einer Liste als Eingabe berechnet werden kann.

Hier verwenden wir eine Liste von Teilen von Sprach-Tags (POS-Tags), um zu sehen, welche lexikalischen Kategorien im braunen Korpus am häufigsten verwendet werden.

import nltk

brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]


fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))

# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]

Wir sehen, dass Substantive die häufigste lexikalische Kategorie sind. Auf Frequenzverteilungen kann wie auf Wörterbücher zugegriffen werden. Auf diese Weise können wir berechnen, wie viel Prozent der Wörter im braunen Korpus Substantive sind.

print(fd['NN'] / len(pos_tags))
# Out: 0.1313

Modified text is an extract of the original Stack Overflow Documentation

Lizenziert unter CC BY-SA 3.0

Nicht angeschlossen an Stack Overflow

nltk
Häufigkeitsverteilungen

Suche…

Einführung

Häufigkeitsverteilung zur Zählung der häufigsten Lexikalischen Kategorien