Buscar..
Introducción
Detener es una especie de método de normalización. Muchas variaciones de las palabras tienen el mismo significado, excepto cuando está involucrado el tiempo. La razón por la que nos basamos es acortar la búsqueda y normalizar las oraciones. Básicamente, es encontrar la raíz de las palabras después de eliminar de él la parte verbal y tensa. Uno de los algoritmos de derivación más populares es el stemter Porter, que ha existido desde 1979.
Porter stemmer
Importar
PorterStemmer
e inicializarfrom nltk.stem import PorterStemmer from nltk.tokenize import word_tokenize ps = PorterStemmer()
Detener una lista de palabras
example_words = ["python","pythoner","pythoning","pythoned","pythonly"] for w in example_words: print(ps.stem(w))
Resultado:
python python python python pythonli
Detener una oración después de tokenizing.
new_text = "It is important to by very pythonly while you are pythoning with python. All pythoners have pythoned poorly at least once." word_tokens = word_tokenize(new_text) for w in word_tokens: print(ps.stem(w)) # Passing word tokens into stem method of Porter Stemmer
Resultado:
It is import to by veri pythonli while you are python with python . all python have python poorli at least onc .
Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow