nltk
Stemming
Zoeken…
Invoering
Stemming is een soort normalisatiemethode. Veel woordvariaties hebben dezelfde betekenis, behalve wanneer het een tijd is. De reden waarom we stammen is om de opzoeking in te korten en zinnen te normaliseren. Kortom, het is het vinden van de wortel van woorden na het verwijderen van werkwoord en gespannen gedeelte ervan. Een van de meest populaire stemmingsalgoritmen is de Porter-stammer, die al sinds 1979 bestaat.
Porter stemmer
PorterStemmer
importeren en initialiserenfrom nltk.stem import PorterStemmer from nltk.tokenize import word_tokenize ps = PorterStemmer()
Stuur een lijst met woorden
example_words = ["python","pythoner","pythoning","pythoned","pythonly"] for w in example_words: print(ps.stem(w))
Resultaat:
python python python python pythonli
Stam een zin na het tokeniseren.
new_text = "It is important to by very pythonly while you are pythoning with python. All pythoners have pythoned poorly at least once." word_tokens = word_tokenize(new_text) for w in word_tokens: print(ps.stem(w)) # Passing word tokens into stem method of Porter Stemmer
Resultaat:
It is import to by veri pythonli while you are python with python . all python have python poorli at least onc .
Modified text is an extract of the original Stack Overflow Documentation
Licentie onder CC BY-SA 3.0
Niet aangesloten bij Stack Overflow