nltk
stemming
Sök…
Introduktion
Stemming är en typ av normaliseringsmetod. Många variationer av ord har samma betydelse, annat än när det är spänt. Anledningen till att vi stämmer är att förkorta uppslaget och normalisera meningar. I grund och botten är det att hitta roten till ord efter att ha tagit bort verb och spänd del från det. En av de mest populära stammalgoritmerna är Porter-stammaren, som har funnits sedan 1979.
Porter stammare
Importera
PorterStemmer
och initierafrom nltk.stem import PorterStemmer from nltk.tokenize import word_tokenize ps = PorterStemmer()
Stamma en lista med ord
example_words = ["python","pythoner","pythoning","pythoned","pythonly"] for w in example_words: print(ps.stem(w))
Resultat:
python python python python pythonli
Stämma en mening efter att ha tecknat den.
new_text = "It is important to by very pythonly while you are pythoning with python. All pythoners have pythoned poorly at least once." word_tokens = word_tokenize(new_text) for w in word_tokens: print(ps.stem(w)) # Passing word tokens into stem method of Porter Stemmer
Resultat:
It is import to by veri pythonli while you are python with python . all python have python poorli at least onc .
Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow