nltk => Stemming

Einführung

Stemming ist eine Art Normalisierungsmethode. Viele Variationen von Wörtern haben dieselbe Bedeutung, außer wenn es sich um eine angespannte Situation handelt. Der Grund, warum wir vorgehen, ist, die Suche zu verkürzen und Sätze zu normalisieren. Im Grunde ist es die Wurzel von Wörtern zu finden, nachdem der Verb und der angespannte Teil daraus entfernt wurden. Einer der beliebtesten Stemming-Algorithmen ist der seit 1979 existierende Porter-Stemmer.

Porter Stemmer

PorterStemmer und initialisieren

 from nltk.stem import PorterStemmer
 from nltk.tokenize import word_tokenize
 ps = PorterStemmer()

Eine Liste mit Wörtern erstellen

 example_words = ["python","pythoner","pythoning","pythoned","pythonly"]

 for w in example_words:
     print(ps.stem(w))

Ergebnis:

 python
 python
 python
 python
 pythonli

Stemmen Sie einen Satz nach, indem Sie ihn kennzeichnen.

 new_text = "It is important to by very pythonly while you are pythoning with python. All pythoners have pythoned poorly at least once."

 word_tokens = word_tokenize(new_text)
 for w in word_tokens:
     print(ps.stem(w))   # Passing word tokens into stem method of Porter Stemmer

Ergebnis:

 It
 is
 import
 to
 by
 veri
 pythonli
 while
 you
 are
 python
 with
 python
 .
 all
 python
 have
 python
 poorli
 at
 least
 onc
 .

Modified text is an extract of the original Stack Overflow Documentation

Lizenziert unter CC BY-SA 3.0

Nicht angeschlossen an Stack Overflow

nltk
Stemming

Suche…

Einführung

Porter Stemmer