nltk
Tokenizacja
Szukaj…
Wprowadzenie
Odnosi się to do podziału zdań i słów z treści odpowiednio na tokeny zdania lub tokeny słów. Jest to istotna część NLP, ponieważ wiele modułów działa lepiej (lub tylko) z tagami. Na przykład pos_tag potrzebuje tagów jako danych wejściowych, a nie słów, aby oznaczyć je fragmentami mowy.
Zdanie i tokeny słów od użytkownika podane w akapicie
from nltk.tokenize import sent_tokenize, word_tokenize
example_text = input("Enter the text: ")
print("Sentence Tokens:")
print(sent_tokenize(example_text))
print("Word Tokens:")
print(word_tokenize(example_text))
Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow