Szukaj…


Wprowadzenie

W tym temacie omówiono użycie klasy nltk.FreqDist ().

Rozkład częstotliwości w celu policzenia najczęstszych kategorii leksykalnych

NLTK zapewnia klasę FreqDist, która pozwala nam łatwo obliczyć rozkład częstotliwości, biorąc pod uwagę listę jako dane wejściowe.

Używamy tutaj części tagów mowy (POS), aby zobaczyć, które kategorie leksykalne są najczęściej używane w brązowym korpusie.

import nltk

brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]


fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))

# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]

Widzimy, że rzeczowniki są najczęstszą kategorią leksykalną. Rozkłady częstotliwości są dostępne podobnie jak słowniki. W ten sposób możemy obliczyć, jaki procent słów w brązowym ciele to rzeczowniki.

print(fd['NN'] / len(pos_tags))
# Out: 0.1313


Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow