Recherche…


Introduction

Cette rubrique se concentre sur l'utilisation de la classe nltk.FreqDist ().

Distribution de fréquence pour compter les catégories lexicales les plus courantes

NLTK fournit la classe FreqDist qui nous permet de calculer facilement une distribution de fréquence à partir d’une liste en entrée.

Nous utilisons ici une liste d'une partie des étiquettes vocales (balises POS) pour voir quelles catégories lexicales sont les plus utilisées dans le corpus brun.

import nltk

brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]


fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))

# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]

Nous pouvons voir que les noms sont la catégorie lexicale la plus courante. Les distributions de fréquence sont accessibles comme les dictionnaires. Ainsi, nous pouvons calculer quel pourcentage des mots du corpus brun sont des noms.

print(fd['NN'] / len(pos_tags))
# Out: 0.1313


Modified text is an extract of the original Stack Overflow Documentation
Sous licence CC BY-SA 3.0
Non affilié à Stack Overflow