nltk
Морфологический
Поиск…
Вступление
Stemming - это своего рода нормализующий метод. Многие вариации слов имеют тот же смысл, кроме случаев, когда задействовано время. Причина, по которой мы имеем дело, заключается в сокращении поиска и нормализации предложений. По сути, он находит корень слов после удаления из него глагола и частичной части. Одним из самых популярных алгоритмов генерации является порог Портера, который существует с 1979 года.
Портер-стволовый
Импорт
PorterStemmer
и инициализацияfrom nltk.stem import PorterStemmer from nltk.tokenize import word_tokenize ps = PorterStemmer()
Stem список слов
example_words = ["python","pythoner","pythoning","pythoned","pythonly"] for w in example_words: print(ps.stem(w))
Результат:
python python python python pythonli
Stem предложение после tokenizing это.
new_text = "It is important to by very pythonly while you are pythoning with python. All pythoners have pythoned poorly at least once." word_tokens = word_tokenize(new_text) for w in word_tokens: print(ps.stem(w)) # Passing word tokens into stem method of Porter Stemmer
Результат:
It is import to by veri pythonli while you are python with python . all python have python poorli at least onc .
Modified text is an extract of the original Stack Overflow Documentation
Лицензировано согласно CC BY-SA 3.0
Не связан с Stack Overflow