Suche…


Einführung

Stoppwörter sind die Wörter, die meistens als Füllstoffe verwendet werden und kaum eine sinnvolle Bedeutung haben. Wir sollten vermeiden, dass diese Wörter Speicherplatz in der Datenbank oder wertvolle Verarbeitungszeit beanspruchen. Wir können leicht eine Liste von Wörtern erstellen, die als Stoppwörter verwendet werden sollen, und diese Wörter dann aus den Daten filtern, die wir verarbeiten möchten.

Stoppwörter herausfiltern

NLTK verfügt standardmäßig über eine Reihe von Wörtern, die als Stoppwörter betrachtet werden. Über den NLTK-Korpus kann darauf zugegriffen werden mit:

from nltk.corpus import stopwords

So überprüfen Sie die Liste der Stoppwörter, die für die englische Sprache gespeichert sind:

stop_words = set(stopwords.words("english"))
print(stop_words)

Beispiel zum Einfügen des Satzes stop_words, um die Stoppwörter aus einem bestimmten Text zu entfernen:

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example_sent = "This is a sample sentence, showing off the stop words filtration."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example_sent)
filtered_sentence = [w for w in word_tokens if not w in stop_words]

filtered_sentence = []

for w in word_tokens:
    if w not in stop_words:
        filtered_sentence.append(w)
    
print(word_tokens)
print(filtered_sentence)


Modified text is an extract of the original Stack Overflow Documentation
Lizenziert unter CC BY-SA 3.0
Nicht angeschlossen an Stack Overflow