nltk => Tokenizing

Invoering

Het verwijst naar de opsplitsing van zinnen en woorden uit de hoofdtekst van de tekst in respectievelijk tokens of woordtokens. Het is een essentieel onderdeel van NLP, omdat veel modules beter (of alleen) werken met tags. Pos_tag heeft bijvoorbeeld tags nodig als invoer en niet de woorden, om ze te taggen op delen van spraak.

Zin- en woordtokenization van door de gebruiker gegeven paragraaf

from nltk.tokenize import sent_tokenize, word_tokenize
example_text = input("Enter the text:  ")

print("Sentence Tokens:")
print(sent_tokenize(example_text))

print("Word Tokens:")
print(word_tokenize(example_text))

Modified text is an extract of the original Stack Overflow Documentation

Licentie onder CC BY-SA 3.0

Niet aangesloten bij Stack Overflow

nltk
Tokenizing

Zoeken…

Invoering

Zin- en woordtokenization van door de gebruiker gegeven paragraaf