Sök…


Introduktion

Detta ämne fokuserar på användningen av klassen nltk.FreqDist ().

Frekvensfördelning för att räkna de vanligaste Lexical-kategorierna

NLTK tillhandahåller FreqDist-klassen som låter oss enkelt beräkna en frekvensfördelning med en lista som ingång.

Här använder vi en lista över delar av taltaggar (POS-taggar) för att se vilka lexikala kategorier som används mest i det bruna korpuset.

import nltk

brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]


fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))

# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]

Vi kan se att namnen är den vanligaste leksikala kategorin. Frekvensfördelningar kan nås precis som ordböcker. Så genom att göra detta kan vi beräkna vilken procentandel av orden i det bruna korpuset är substantiv.

print(fd['NN'] / len(pos_tags))
# Out: 0.1313


Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow