サーチ…
前書き
一部の音声タグ付けは、単語と品詞のタプルを作成します。これは、名詞、形容詞、動詞などのように、文中の単語にラベルを付けます。また、時制やその他のラベルを付けることもできます。これらのタグは、元のトレーニングデータに含まれていたものを意味します。使用方法が一貫している限り、自分のトレーニングデータに独自のタグを作成することは自由です。トレーニングデータには一般的に多くの作業が必要なため、通常は既存のコーパスが使用されます。これらは通常、Penn TreebankとBrown Corpusを使用します。
備考
注意すべき重要な点
- 可変ワードは、トークンのリストである。
- リストワード内のアイテムiはトークンでも、単一のトークンにタグ付けすると、その単語の各文字にタグが付けられます。
- nltk.tag.pos_tag_ accept a
- トークンのリスト - その要素を分離してタグ付けするか、
- 文字列のリスト
- 1つの単語のタグを取得することはできず、代わりにリストに入れることができます。
- POSタグ
基本的な例
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)
Modified text is an extract of the original Stack Overflow Documentation
ライセンスを受けた CC BY-SA 3.0
所属していない Stack Overflow