サーチ…
前書き
このトピックでは、nltk.FreqDist()クラスの使用に焦点を当てています。
最も一般的なレキシカルカテゴリをカウントする頻度分布
NLTKはFreqDistクラスを提供していますので、リストを入力として周波数分布を簡単に計算できます。
ここでは、品詞タグ(POSタグ)のリストを使用して、茶色のコーパスで最も使用されているレキシカルカテゴリを確認します。
import nltk
brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]
fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))
# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]
名詞が最も一般的な語彙カテゴリであることがわかります。頻度分布は辞書と同様にアクセスできます。このようにすることで、茶色のコーパスの単語のうち何パーセントが名詞であるかを計算することができます。
print(fd['NN'] / len(pos_tags))
# Out: 0.1313
Modified text is an extract of the original Stack Overflow Documentation
ライセンスを受けた CC BY-SA 3.0
所属していない Stack Overflow