nltk => Tokenizing

Introduktion

Det hänvisar till uppdelningen av meningar och ord från texten i olika meningar eller ordtecken. Det är en väsentlig del av NLP, eftersom många moduler fungerar bättre (eller bara) med taggar. Exempelvis behöver pos_tag taggar som inmatning och inte orden för att tagga dem efter delar av talet.

Mening och ordtokenisering från användargivet stycke

from nltk.tokenize import sent_tokenize, word_tokenize
example_text = input("Enter the text:  ")

print("Sentence Tokens:")
print(sent_tokenize(example_text))

print("Word Tokens:")
print(word_tokenize(example_text))

Modified text is an extract of the original Stack Overflow Documentation

Licensierat under CC BY-SA 3.0

Inte anslutet till Stack Overflow

nltk
Tokenizing

Sök…

Introduktion

Mening och ordtokenisering från användargivet stycke