nltk
Distribuciones de frecuencia
Buscar..
Introducción
Este tema se centra en el uso de la clase nltk.FreqDist ().
Distribución de frecuencia para contar las categorías léxicas más comunes
NLTK proporciona la clase FreqDist que nos permite calcular fácilmente una distribución de frecuencia dada una lista como entrada.
Aquí estamos usando una lista de parte de las etiquetas de voz (etiquetas POS) para ver qué categorías léxicas se utilizan más en el corpus marrón.
import nltk
brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]
fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))
# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]
Podemos ver que los sustantivos son la categoría léxica más común. Se puede acceder a las Distribuciones de frecuencia como a los diccionarios. Entonces al hacer esto podemos calcular qué porcentaje de las palabras en el cuerpo marrón son sustantivos.
print(fd['NN'] / len(pos_tags))
# Out: 0.1313
Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow