nltk
Stop woorden
Zoeken…
Invoering
Stopwoorden zijn de woorden die meestal worden gebruikt als opvullers en nauwelijks een nuttige betekenis hebben. We moeten voorkomen dat deze woorden ruimte innemen in de database of waardevolle verwerkingstijd in beslag nemen. We kunnen eenvoudig een lijst met woorden maken die als stopwoorden worden gebruikt en deze woorden vervolgens filteren op basis van de gegevens die we willen verwerken.
Stopwoorden filteren
NLTK heeft standaard een aantal woorden die het als stopwoorden beschouwt. Het is toegankelijk via het NLTK-corpus met:
from nltk.corpus import stopwords
Om de lijst met stopwoorden te controleren die zijn opgeslagen voor het Engels:
stop_words = set(stopwords.words("english"))
print(stop_words)
Voorbeeld om de stop_words set op te nemen om de stopwoorden uit een gegeven tekst te verwijderen:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
example_sent = "This is a sample sentence, showing off the stop words filtration."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example_sent)
filtered_sentence = [w for w in word_tokens if not w in stop_words]
filtered_sentence = []
for w in word_tokens:
if w not in stop_words:
filtered_sentence.append(w)
print(word_tokens)
print(filtered_sentence)
Modified text is an extract of the original Stack Overflow Documentation
Licentie onder CC BY-SA 3.0
Niet aangesloten bij Stack Overflow