nltk
Stemming
Suche…
Einführung
Stemming ist eine Art Normalisierungsmethode. Viele Variationen von Wörtern haben dieselbe Bedeutung, außer wenn es sich um eine angespannte Situation handelt. Der Grund, warum wir vorgehen, ist, die Suche zu verkürzen und Sätze zu normalisieren. Im Grunde ist es die Wurzel von Wörtern zu finden, nachdem der Verb und der angespannte Teil daraus entfernt wurden. Einer der beliebtesten Stemming-Algorithmen ist der seit 1979 existierende Porter-Stemmer.
Porter Stemmer
PorterStemmer
und initialisierenfrom nltk.stem import PorterStemmer from nltk.tokenize import word_tokenize ps = PorterStemmer()
Eine Liste mit Wörtern erstellen
example_words = ["python","pythoner","pythoning","pythoned","pythonly"] for w in example_words: print(ps.stem(w))
Ergebnis:
python python python python pythonli
Stemmen Sie einen Satz nach, indem Sie ihn kennzeichnen.
new_text = "It is important to by very pythonly while you are pythoning with python. All pythoners have pythoned poorly at least once." word_tokens = word_tokenize(new_text) for w in word_tokens: print(ps.stem(w)) # Passing word tokens into stem method of Porter Stemmer
Ergebnis:
It is import to by veri pythonli while you are python with python . all python have python poorli at least onc .
Modified text is an extract of the original Stack Overflow Documentation
Lizenziert unter CC BY-SA 3.0
Nicht angeschlossen an Stack Overflow