nltk => Stoppa ord

Introduktion

Stoppord är orden som oftast används som fyllmedel och knappast har någon användbar betydelse. Vi bör undvika att dessa ord tar plats i databasen eller tar upp värdefull behandlingstid. Vi kan enkelt skapa en lista med ord som ska användas som stoppord och sedan filtrera dessa ord från de data vi vill bearbeta.

Filtrera ut stoppord

NLTK har som standard ett gäng ord som det anser vara stoppord. Det kan nås via NLTK-korpuset med:

from nltk.corpus import stopwords

Så här kontrollerar du listan med stoppord lagrade för engelska:

stop_words = set(stopwords.words("english"))
print(stop_words)

Exempel för att införliva stopp_ordsuppsättningen för att ta bort stoppord från en given text:

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example_sent = "This is a sample sentence, showing off the stop words filtration."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example_sent)
filtered_sentence = [w for w in word_tokens if not w in stop_words]

filtered_sentence = []

for w in word_tokens:
    if w not in stop_words:
        filtered_sentence.append(w)
    
print(word_tokens)
print(filtered_sentence)

Modified text is an extract of the original Stack Overflow Documentation

Licensierat under CC BY-SA 3.0

Inte anslutet till Stack Overflow

nltk
Stoppa ord

Sök…

Introduktion

Filtrera ut stoppord