nltk
Частотные распределения
Поиск…
Вступление
В этом разделе основное внимание уделяется использованию класса nltk.FreqDist ().
Распределение частот для подсчета наиболее распространенных лексических категорий
NLTK предоставляет класс FreqDist, который позволяет нам легко рассчитать распределение частот, учитывая список как входной.
Здесь мы используем список частей речевых тегов (теги POS), чтобы увидеть, какие лексические категории наиболее используются в коричневом корпусе.
import nltk
brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]
fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))
# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]
Мы можем видеть, что существительные являются наиболее распространенной лексической категорией. Доступ к частотным распределениям можно получить так же, как словари. Таким образом, делая это, мы можем рассчитать, какой процент слов в коричневом корпусе является существительным.
print(fd['NN'] / len(pos_tags))
# Out: 0.1313
Modified text is an extract of the original Stack Overflow Documentation
Лицензировано согласно CC BY-SA 3.0
Не связан с Stack Overflow