サーチ…


前書き

このトピックでは、nltk.FreqDist()クラスの使用に焦点を当てています。

最も一般的なレキシカルカテゴリをカウントする頻度分布

NLTKはFreqDistクラスを提供していますので、リストを入力として周波数分布を簡単に計算できます。

ここでは、品詞タグ(POSタグ)のリストを使用して、茶色のコーパスで最も使用されているレキシカルカテゴリを確認します。

import nltk

brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]


fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))

# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]

名詞が最も一般的な語彙カテゴリであることがわかります。頻度分布は辞書と同様にアクセスできます。このようにすることで、茶色のコーパスの単語のうち何パーセントが名詞であるかを計算することができます。

print(fd['NN'] / len(pos_tags))
# Out: 0.1313


Modified text is an extract of the original Stack Overflow Documentation
ライセンスを受けた CC BY-SA 3.0
所属していない Stack Overflow