Suche…


Einführung

Stemming ist eine Art Normalisierungsmethode. Viele Variationen von Wörtern haben dieselbe Bedeutung, außer wenn es sich um eine angespannte Situation handelt. Der Grund, warum wir vorgehen, ist, die Suche zu verkürzen und Sätze zu normalisieren. Im Grunde ist es die Wurzel von Wörtern zu finden, nachdem der Verb und der angespannte Teil daraus entfernt wurden. Einer der beliebtesten Stemming-Algorithmen ist der seit 1979 existierende Porter-Stemmer.

Porter Stemmer

  1. PorterStemmer und initialisieren

     from nltk.stem import PorterStemmer
     from nltk.tokenize import word_tokenize
     ps = PorterStemmer()
    
  2. Eine Liste mit Wörtern erstellen

     example_words = ["python","pythoner","pythoning","pythoned","pythonly"]
    
     for w in example_words:
         print(ps.stem(w))
    

    Ergebnis:

     python
     python
     python
     python
     pythonli
    
  3. Stemmen Sie einen Satz nach, indem Sie ihn kennzeichnen.

     new_text = "It is important to by very pythonly while you are pythoning with python. All pythoners have pythoned poorly at least once."
    
     word_tokens = word_tokenize(new_text)
     for w in word_tokens:
         print(ps.stem(w))   # Passing word tokens into stem method of Porter Stemmer
    

    Ergebnis:

     It
     is
     import
     to
     by
     veri
     pythonli
     while
     you
     are
     python
     with
     python
     .
     all
     python
     have
     python
     poorli
     at
     least
     onc
     .
    


Modified text is an extract of the original Stack Overflow Documentation
Lizenziert unter CC BY-SA 3.0
Nicht angeschlossen an Stack Overflow