nltk
Tokenización
Buscar..
Introducción
Se refiere a la división de oraciones y palabras del cuerpo del texto en tokens de oraciones o tokens de palabras respectivamente. Es una parte esencial de la PNL, ya que muchos módulos funcionan mejor (o solo) con etiquetas. Por ejemplo, pos_tag necesita etiquetas como entrada y no palabras, para etiquetarlas por partes del habla.
Oración y tokenización de palabras del párrafo dado por el usuario
from nltk.tokenize import sent_tokenize, word_tokenize
example_text = input("Enter the text: ")
print("Sentence Tokens:")
print(sent_tokenize(example_text))
print("Word Tokens:")
print(word_tokenize(example_text))
Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow