Buscar..


Introducción

Se refiere a la división de oraciones y palabras del cuerpo del texto en tokens de oraciones o tokens de palabras respectivamente. Es una parte esencial de la PNL, ya que muchos módulos funcionan mejor (o solo) con etiquetas. Por ejemplo, pos_tag necesita etiquetas como entrada y no palabras, para etiquetarlas por partes del habla.

Oración y tokenización de palabras del párrafo dado por el usuario

from nltk.tokenize import sent_tokenize, word_tokenize
example_text = input("Enter the text:  ")

print("Sentence Tokens:")
print(sent_tokenize(example_text))

print("Word Tokens:")
print(word_tokenize(example_text))


Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow