nltk => Stemming

Invoering

Stemming is een soort normalisatiemethode. Veel woordvariaties hebben dezelfde betekenis, behalve wanneer het een tijd is. De reden waarom we stammen is om de opzoeking in te korten en zinnen te normaliseren. Kortom, het is het vinden van de wortel van woorden na het verwijderen van werkwoord en gespannen gedeelte ervan. Een van de meest populaire stemmingsalgoritmen is de Porter-stammer, die al sinds 1979 bestaat.

Porter stemmer

PorterStemmer importeren en initialiseren

 from nltk.stem import PorterStemmer
 from nltk.tokenize import word_tokenize
 ps = PorterStemmer()

Stuur een lijst met woorden

 example_words = ["python","pythoner","pythoning","pythoned","pythonly"]

 for w in example_words:
     print(ps.stem(w))

Resultaat:

 python
 python
 python
 python
 pythonli

Stam een zin na het tokeniseren.

 new_text = "It is important to by very pythonly while you are pythoning with python. All pythoners have pythoned poorly at least once."

 word_tokens = word_tokenize(new_text)
 for w in word_tokens:
     print(ps.stem(w))   # Passing word tokens into stem method of Porter Stemmer

Resultaat:

 It
 is
 import
 to
 by
 veri
 pythonli
 while
 you
 are
 python
 with
 python
 .
 all
 python
 have
 python
 poorli
 at
 least
 onc
 .

Modified text is an extract of the original Stack Overflow Documentation

Licentie onder CC BY-SA 3.0

Niet aangesloten bij Stack Overflow

nltk
Stemming

Zoeken…

Invoering

Porter stemmer