Zoeken…


Invoering

Stemming is een soort normalisatiemethode. Veel woordvariaties hebben dezelfde betekenis, behalve wanneer het een tijd is. De reden waarom we stammen is om de opzoeking in te korten en zinnen te normaliseren. Kortom, het is het vinden van de wortel van woorden na het verwijderen van werkwoord en gespannen gedeelte ervan. Een van de meest populaire stemmingsalgoritmen is de Porter-stammer, die al sinds 1979 bestaat.

Porter stemmer

  1. PorterStemmer importeren en initialiseren

     from nltk.stem import PorterStemmer
     from nltk.tokenize import word_tokenize
     ps = PorterStemmer()
    
  2. Stuur een lijst met woorden

     example_words = ["python","pythoner","pythoning","pythoned","pythonly"]
    
     for w in example_words:
         print(ps.stem(w))
    

    Resultaat:

     python
     python
     python
     python
     pythonli
    
  3. Stam een zin na het tokeniseren.

     new_text = "It is important to by very pythonly while you are pythoning with python. All pythoners have pythoned poorly at least once."
    
     word_tokens = word_tokenize(new_text)
     for w in word_tokens:
         print(ps.stem(w))   # Passing word tokens into stem method of Porter Stemmer
    

    Resultaat:

     It
     is
     import
     to
     by
     veri
     pythonli
     while
     you
     are
     python
     with
     python
     .
     all
     python
     have
     python
     poorli
     at
     least
     onc
     .
    


Modified text is an extract of the original Stack Overflow Documentation
Licentie onder CC BY-SA 3.0
Niet aangesloten bij Stack Overflow