수색…


소개

이 항목에서는 nltk.FreqDist () 클래스 사용에 대해 중점적으로 설명합니다.

가장 일반적인 어휘 카테고리를 세는 도수 분포

NLTK는 FreqDist 클래스를 제공하여 목록을 입력으로 쉽게 도수 분포를 계산할 수 있도록합니다.

여기서 우리는 음성 인식 태그 (POS 태그) 목록을 사용하여 갈색 자료에서 가장 많이 사용되는 어휘 범주를 확인합니다.

import nltk

brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]


fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))

# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]

명사가 가장 일반적인 어휘 범주라는 것을 알 수 있습니다. 빈도 분포는 사전과 마찬가지로 접근 할 수 있습니다. 이렇게하면 우리는 갈색 코퍼스에있는 단어의 몇 퍼센트가 명사인지를 계산할 수 있습니다.

print(fd['NN'] / len(pos_tags))
# Out: 0.1313


Modified text is an extract of the original Stack Overflow Documentation
아래 라이선스 CC BY-SA 3.0
와 제휴하지 않음 Stack Overflow