nltk
Tokenisieren
Suche…
Einführung
Es bezieht sich auf die Aufteilung von Sätzen und Wörtern aus dem Textkörper in Satzmarken bzw. Wortmarken. Es ist ein wesentlicher Bestandteil von NLP, da viele Module besser (oder nur) mit Tags arbeiten. Zum Beispiel benötigt pos_tag Tags als Eingabe und nicht die Wörter, um sie durch Teile der Sprache zu kennzeichnen .
Satz- und Wort-Tokenisierung vom Benutzer angegebenen Absatz
from nltk.tokenize import sent_tokenize, word_tokenize
example_text = input("Enter the text: ")
print("Sentence Tokens:")
print(sent_tokenize(example_text))
print("Word Tokens:")
print(word_tokenize(example_text))
Modified text is an extract of the original Stack Overflow Documentation
Lizenziert unter CC BY-SA 3.0
Nicht angeschlossen an Stack Overflow