nltk => Tokenizacja

Wprowadzenie

Odnosi się to do podziału zdań i słów z treści odpowiednio na tokeny zdania lub tokeny słów. Jest to istotna część NLP, ponieważ wiele modułów działa lepiej (lub tylko) z tagami. Na przykład pos_tag potrzebuje tagów jako danych wejściowych, a nie słów, aby oznaczyć je fragmentami mowy.

Zdanie i tokeny słów od użytkownika podane w akapicie

from nltk.tokenize import sent_tokenize, word_tokenize
example_text = input("Enter the text:  ")

print("Sentence Tokens:")
print(sent_tokenize(example_text))

print("Word Tokens:")
print(word_tokenize(example_text))

Modified text is an extract of the original Stack Overflow Documentation

Licencjonowany na podstawie CC BY-SA 3.0

Nie związany z Stack Overflow

nltk
Tokenizacja

Szukaj…

Wprowadzenie

Zdanie i tokeny słów od użytkownika podane w akapicie