nltk => Tokenisieren

Einführung

Es bezieht sich auf die Aufteilung von Sätzen und Wörtern aus dem Textkörper in Satzmarken bzw. Wortmarken. Es ist ein wesentlicher Bestandteil von NLP, da viele Module besser (oder nur) mit Tags arbeiten. Zum Beispiel benötigt pos_tag Tags als Eingabe und nicht die Wörter, um sie durch Teile der Sprache zu kennzeichnen .

Satz- und Wort-Tokenisierung vom Benutzer angegebenen Absatz

from nltk.tokenize import sent_tokenize, word_tokenize
example_text = input("Enter the text:  ")

print("Sentence Tokens:")
print(sent_tokenize(example_text))

print("Word Tokens:")
print(word_tokenize(example_text))

Modified text is an extract of the original Stack Overflow Documentation

Lizenziert unter CC BY-SA 3.0

Nicht angeschlossen an Stack Overflow

nltk
Tokenisieren

Suche…

Einführung

Satz- und Wort-Tokenisierung vom Benutzer angegebenen Absatz