Buscar..


Introducción

Este tema se centra en el uso de la clase nltk.FreqDist ().

Distribución de frecuencia para contar las categorías léxicas más comunes

NLTK proporciona la clase FreqDist que nos permite calcular fácilmente una distribución de frecuencia dada una lista como entrada.

Aquí estamos usando una lista de parte de las etiquetas de voz (etiquetas POS) para ver qué categorías léxicas se utilizan más en el corpus marrón.

import nltk

brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]


fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))

# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]

Podemos ver que los sustantivos son la categoría léxica más común. Se puede acceder a las Distribuciones de frecuencia como a los diccionarios. Entonces al hacer esto podemos calcular qué porcentaje de las palabras en el cuerpo marrón son sustantivos.

print(fd['NN'] / len(pos_tags))
# Out: 0.1313


Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow