nltk => Tokenizing

Introduction

Il fait référence à la division des phrases et des mots du corps du texte en jetons de phrase ou en mot-clé respectivement. C'est une partie essentielle de la PNL, car de nombreux modules fonctionnent mieux (ou uniquement) avec les tags. Par exemple, pos_tag a besoin d' étiquettes en entrée et non de mots pour les étiqueter par parties de discours.

Tokenization de mots et de phrases à partir du paragraphe donné par l'utilisateur

from nltk.tokenize import sent_tokenize, word_tokenize
example_text = input("Enter the text:  ")

print("Sentence Tokens:")
print(sent_tokenize(example_text))

print("Word Tokens:")
print(word_tokenize(example_text))

Modified text is an extract of the original Stack Overflow Documentation

Sous licence CC BY-SA 3.0

Non affilié à Stack Overflow

nltk
Tokenizing

Recherche…

Introduction

Tokenization de mots et de phrases à partir du paragraphe donné par l'utilisateur