nltk
Rozkłady częstotliwości
Szukaj…
Wprowadzenie
W tym temacie omówiono użycie klasy nltk.FreqDist ().
Rozkład częstotliwości w celu policzenia najczęstszych kategorii leksykalnych
NLTK zapewnia klasę FreqDist, która pozwala nam łatwo obliczyć rozkład częstotliwości, biorąc pod uwagę listę jako dane wejściowe.
Używamy tutaj części tagów mowy (POS), aby zobaczyć, które kategorie leksykalne są najczęściej używane w brązowym korpusie.
import nltk
brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]
fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))
# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]
Widzimy, że rzeczowniki są najczęstszą kategorią leksykalną. Rozkłady częstotliwości są dostępne podobnie jak słowniki. W ten sposób możemy obliczyć, jaki procent słów w brązowym ciele to rzeczowniki.
print(fd['NN'] / len(pos_tags))
# Out: 0.1313
Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow