Sök…


Introduktion

Stemming är en typ av normaliseringsmetod. Många variationer av ord har samma betydelse, annat än när det är spänt. Anledningen till att vi stämmer är att förkorta uppslaget och normalisera meningar. I grund och botten är det att hitta roten till ord efter att ha tagit bort verb och spänd del från det. En av de mest populära stammalgoritmerna är Porter-stammaren, som har funnits sedan 1979.

Porter stammare

  1. Importera PorterStemmer och initiera

     from nltk.stem import PorterStemmer
     from nltk.tokenize import word_tokenize
     ps = PorterStemmer()
    
  2. Stamma en lista med ord

     example_words = ["python","pythoner","pythoning","pythoned","pythonly"]
    
     for w in example_words:
         print(ps.stem(w))
    

    Resultat:

     python
     python
     python
     python
     pythonli
    
  3. Stämma en mening efter att ha tecknat den.

     new_text = "It is important to by very pythonly while you are pythoning with python. All pythoners have pythoned poorly at least once."
    
     word_tokens = word_tokenize(new_text)
     for w in word_tokens:
         print(ps.stem(w))   # Passing word tokens into stem method of Porter Stemmer
    

    Resultat:

     It
     is
     import
     to
     by
     veri
     pythonli
     while
     you
     are
     python
     with
     python
     .
     all
     python
     have
     python
     poorli
     at
     least
     onc
     .
    


Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow