nltk
Tokenizing
Recherche…
Introduction
Il fait référence à la division des phrases et des mots du corps du texte en jetons de phrase ou en mot-clé respectivement. C'est une partie essentielle de la PNL, car de nombreux modules fonctionnent mieux (ou uniquement) avec les tags. Par exemple, pos_tag a besoin d' étiquettes en entrée et non de mots pour les étiqueter par parties de discours.
Tokenization de mots et de phrases à partir du paragraphe donné par l'utilisateur
from nltk.tokenize import sent_tokenize, word_tokenize
example_text = input("Enter the text: ")
print("Sentence Tokens:")
print(sent_tokenize(example_text))
print("Word Tokens:")
print(word_tokenize(example_text))
Modified text is an extract of the original Stack Overflow Documentation
Sous licence CC BY-SA 3.0
Non affilié à Stack Overflow