nltk => Tokenización

Introducción

Se refiere a la división de oraciones y palabras del cuerpo del texto en tokens de oraciones o tokens de palabras respectivamente. Es una parte esencial de la PNL, ya que muchos módulos funcionan mejor (o solo) con etiquetas. Por ejemplo, pos_tag necesita etiquetas como entrada y no palabras, para etiquetarlas por partes del habla.

Oración y tokenización de palabras del párrafo dado por el usuario

from nltk.tokenize import sent_tokenize, word_tokenize
example_text = input("Enter the text:  ")

print("Sentence Tokens:")
print(sent_tokenize(example_text))

print("Word Tokens:")
print(word_tokenize(example_text))

Modified text is an extract of the original Stack Overflow Documentation

Licenciado bajo CC BY-SA 3.0

No afiliado a Stack Overflow

nltk
Tokenización

Buscar..

Introducción

Oración y tokenización de palabras del párrafo dado por el usuario