nltk => Частотные распределения

Вступление

В этом разделе основное внимание уделяется использованию класса nltk.FreqDist ().

Распределение частот для подсчета наиболее распространенных лексических категорий

NLTK предоставляет класс FreqDist, который позволяет нам легко рассчитать распределение частот, учитывая список как входной.

Здесь мы используем список частей речевых тегов (теги POS), чтобы увидеть, какие лексические категории наиболее используются в коричневом корпусе.

import nltk

brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]


fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))

# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]

Мы можем видеть, что существительные являются наиболее распространенной лексической категорией. Доступ к частотным распределениям можно получить так же, как словари. Таким образом, делая это, мы можем рассчитать, какой процент слов в коричневом корпусе является существительным.

print(fd['NN'] / len(pos_tags))
# Out: 0.1313

Modified text is an extract of the original Stack Overflow Documentation

Лицензировано согласно CC BY-SA 3.0

Не связан с Stack Overflow

nltk
Частотные распределения

Поиск…

Вступление

Распределение частот для подсчета наиболее распространенных лексических категорий