nltk
Häufigkeitsverteilungen
Suche…
Einführung
Dieses Thema konzentriert sich auf die Verwendung der Klasse nltk.FreqDist ().
Häufigkeitsverteilung zur Zählung der häufigsten Lexikalischen Kategorien
NLTK bietet die FreqDist-Klasse, mit der eine Häufigkeitsverteilung anhand einer Liste als Eingabe berechnet werden kann.
Hier verwenden wir eine Liste von Teilen von Sprach-Tags (POS-Tags), um zu sehen, welche lexikalischen Kategorien im braunen Korpus am häufigsten verwendet werden.
import nltk
brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]
fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))
# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]
Wir sehen, dass Substantive die häufigste lexikalische Kategorie sind. Auf Frequenzverteilungen kann wie auf Wörterbücher zugegriffen werden. Auf diese Weise können wir berechnen, wie viel Prozent der Wörter im braunen Korpus Substantive sind.
print(fd['NN'] / len(pos_tags))
# Out: 0.1313
Modified text is an extract of the original Stack Overflow Documentation
Lizenziert unter CC BY-SA 3.0
Nicht angeschlossen an Stack Overflow