nltk => Stop Words

Introduction

Les mots vides sont les mots les plus utilisés comme remplisseurs et n'ont guère de sens utile. Nous devrions éviter que ces mots prennent de la place dans la base de données ou prennent un temps de traitement précieux. Nous pouvons facilement faire une liste de mots à utiliser comme mots vides, puis filtrer ces mots à partir des données que nous voulons traiter.

Filtrage des mots vides

NLTK a par défaut un tas de mots qu'il considère comme des mots vides. On peut y accéder via le corpus NLTK avec:

from nltk.corpus import stopwords

Pour vérifier la liste des mots vides stockés pour la langue anglaise:

stop_words = set(stopwords.words("english"))
print(stop_words)

Exemple d'incorporation de l'ensemble stop_words pour supprimer les mots vides d'un texte donné:

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example_sent = "This is a sample sentence, showing off the stop words filtration."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example_sent)
filtered_sentence = [w for w in word_tokens if not w in stop_words]

filtered_sentence = []

for w in word_tokens:
    if w not in stop_words:
        filtered_sentence.append(w)
    
print(word_tokens)
print(filtered_sentence)

Modified text is an extract of the original Stack Overflow Documentation

Sous licence CC BY-SA 3.0

Non affilié à Stack Overflow

nltk
Stop Words

Recherche…

Introduction

Filtrage des mots vides