Ricerca…


introduzione

Questo argomento si concentra sull'uso della classe nltk.FreqDist ().

Distribuzione di frequenza per contare le categorie lessicali più comuni

NLTK fornisce la classe FreqDist che ci consente di calcolare facilmente una distribuzione di frequenza data una lista come input.

Qui stiamo usando un elenco di parti di tag vocali (tag POS) per vedere quali categorie lessicali sono utilizzate maggiormente nel corpus marrone.

import nltk

brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]


fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))

# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]

Possiamo vedere che i nomi sono la categoria lessicale più comune. Le distribuzioni di frequenza sono accessibili come i dizionari. Così facendo possiamo calcolare quale percentuale delle parole nel corpus marrone sono nomi.

print(fd['NN'] / len(pos_tags))
# Out: 0.1313


Modified text is an extract of the original Stack Overflow Documentation
Autorizzato sotto CC BY-SA 3.0
Non affiliato con Stack Overflow