nltk => トークン化

前書き

これは、文章と単語とをそれぞれ文章トークンまたは単語トークンに分割することを指す。これはNLPの重要な部分であり、多くのモジュールがタグを使ってより良い（または唯一の）動作をするためです。たとえば、 品詞で タグ付けするには 、 pos_tagにはタグが入力でなく単語でなければなりません。

指定された段落からの文と単語のトークン化

from nltk.tokenize import sent_tokenize, word_tokenize
example_text = input("Enter the text:  ")

print("Sentence Tokens:")
print(sent_tokenize(example_text))

print("Word Tokens:")
print(word_tokenize(example_text))

Modified text is an extract of the original Stack Overflow Documentation

ライセンスを受けた CC BY-SA 3.0

所属していない Stack Overflow

nltk
トークン化

サーチ…

前書き

指定された段落からの文と単語のトークン化