nltk
Stop Words
Recherche…
Introduction
Les mots vides sont les mots les plus utilisés comme remplisseurs et n'ont guère de sens utile. Nous devrions éviter que ces mots prennent de la place dans la base de données ou prennent un temps de traitement précieux. Nous pouvons facilement faire une liste de mots à utiliser comme mots vides, puis filtrer ces mots à partir des données que nous voulons traiter.
Filtrage des mots vides
NLTK a par défaut un tas de mots qu'il considère comme des mots vides. On peut y accéder via le corpus NLTK avec:
from nltk.corpus import stopwords
Pour vérifier la liste des mots vides stockés pour la langue anglaise:
stop_words = set(stopwords.words("english"))
print(stop_words)
Exemple d'incorporation de l'ensemble stop_words pour supprimer les mots vides d'un texte donné:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
example_sent = "This is a sample sentence, showing off the stop words filtration."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example_sent)
filtered_sentence = [w for w in word_tokens if not w in stop_words]
filtered_sentence = []
for w in word_tokens:
if w not in stop_words:
filtered_sentence.append(w)
print(word_tokens)
print(filtered_sentence)
Modified text is an extract of the original Stack Overflow Documentation
Sous licence CC BY-SA 3.0
Non affilié à Stack Overflow