nltk => POSタギング

前書き

一部の音声タグ付けは、単語と品詞のタプルを作成します。これは、名詞、形容詞、動詞などのように、文中の単語にラベルを付けます。また、時制やその他のラベルを付けることもできます。これらのタグは、元のトレーニングデータに含まれていたものを意味します。使用方法が一貫している限り、自分のトレーニングデータに独自のタグを作成することは自由です。トレーニングデータには一般的に多くの作業が必要なため、通常は既存のコーパスが使用されます。これらは通常、Penn TreebankとBrown Corpusを使用します。

備考

注意すべき重要な点

可変ワードは、トークンのリストである。
リストワード内のアイテムiはトークンでも、単一のトークンにタグ付けすると、その単語の各文字にタグが付けられます。
nltk.tag.pos_tag_ accept a
- トークンのリスト - その要素を分離してタグ付けするか、
- 文字列のリスト
1つの単語のタグを取得することはできず、代わりにリストに入れることができます。
POSタグ

基本的な例

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)

Modified text is an extract of the original Stack Overflow Documentation

ライセンスを受けた CC BY-SA 3.0

所属していない Stack Overflow

nltk
POSタギング

サーチ…

前書き

備考

注意すべき重要な点

基本的な例