nltk => Stop woorden

Invoering

Stopwoorden zijn de woorden die meestal worden gebruikt als opvullers en nauwelijks een nuttige betekenis hebben. We moeten voorkomen dat deze woorden ruimte innemen in de database of waardevolle verwerkingstijd in beslag nemen. We kunnen eenvoudig een lijst met woorden maken die als stopwoorden worden gebruikt en deze woorden vervolgens filteren op basis van de gegevens die we willen verwerken.

Stopwoorden filteren

NLTK heeft standaard een aantal woorden die het als stopwoorden beschouwt. Het is toegankelijk via het NLTK-corpus met:

from nltk.corpus import stopwords

Om de lijst met stopwoorden te controleren die zijn opgeslagen voor het Engels:

stop_words = set(stopwords.words("english"))
print(stop_words)

Voorbeeld om de stop_words set op te nemen om de stopwoorden uit een gegeven tekst te verwijderen:

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example_sent = "This is a sample sentence, showing off the stop words filtration."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example_sent)
filtered_sentence = [w for w in word_tokens if not w in stop_words]

filtered_sentence = []

for w in word_tokens:
    if w not in stop_words:
        filtered_sentence.append(w)
    
print(word_tokens)
print(filtered_sentence)

Modified text is an extract of the original Stack Overflow Documentation

Licentie onder CC BY-SA 3.0

Niet aangesloten bij Stack Overflow

nltk
Stop woorden

Zoeken…

Invoering

Stopwoorden filteren