nltk => Frequentieverdeling

Invoering

Dit onderwerp richt zich op het gebruik van de klasse nltk.FreqDist ().

Frequentieverdeling om de meest voorkomende Lexicale categorieën te tellen

NLTK biedt de klasse FreqDist waarmee we eenvoudig een frequentieverdeling kunnen berekenen op basis van een lijst als invoer.

Hier gebruiken we een lijst van een deel van spraaklabels (POS-tags) om te zien welke lexicale categorieën het meest worden gebruikt in het bruine corpus.

import nltk

brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]


fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))

# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]

We kunnen zien dat zelfstandige naamwoorden de meest voorkomende lexicale categorie zijn. Frequentieverdelingen zijn net als woordenboeken toegankelijk. Dus door dit te doen kunnen we berekenen welk percentage van de woorden in het bruine corpus zelfstandige naamwoorden zijn.

print(fd['NN'] / len(pos_tags))
# Out: 0.1313

Modified text is an extract of the original Stack Overflow Documentation

Licentie onder CC BY-SA 3.0

Niet aangesloten bij Stack Overflow

nltk
Frequentieverdeling

Zoeken…

Invoering

Frequentieverdeling om de meest voorkomende Lexicale categorieën te tellen