サーチ…


前書き

一部の音声タグ付けは、単語と品詞のタプルを作成します。これは、名詞、形容詞、動詞などのように、文中の単語にラベルを付けます。また、時制やその他のラベルを付けることもできます。これらのタグは、元のトレーニングデータに含まれていたものを意味します。使用方法が一貫している限り、自分のトレーニングデータに独自のタグを作成することは自由です。トレーニングデータには一般的に多くの作業が必要なため、通常は既存のコーパスが使用されます。これらは通常、Penn TreebankとBrown Corpusを使用します。

備考

注意すべき重要な点

  • 可変ワードは、トークンのリストである。
  • リストワード内のアイテムiはトークンでも、単一のトークンにタグ付けすると、その単語の各文字にタグが付けられます。
  • nltk.tag.pos_tag_ accept a
    • トークンのリスト - その要素を分離してタグ付けするか、
    • 文字列のリスト
  • 1つの単語のタグを取得することはできず、代わりにリストに入れることができます。
  • POSタグ

基本的な例

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
text = 'We saw the yellow dog'
word = word_tokenize(text)
tag1 = nltk.pos_tag(word)
print(tag1)


Modified text is an extract of the original Stack Overflow Documentation
ライセンスを受けた CC BY-SA 3.0
所属していない Stack Overflow