खोज…


परिचय

स्टेमिंग एक तरह की सामान्य विधि है। शब्दों के कई रूपांतर एक ही अर्थ को ले जाते हैं, जब तनाव शामिल होता है। कारण यह है कि हम स्टेम को लुकअप को छोटा करते हैं, और वाक्यों को सामान्य करते हैं। मूल रूप से, यह क्रिया और तनाव वाले भाग को हटाने के बाद शब्दों की जड़ का पता लगा रहा है। सबसे लोकप्रिय स्टेमिंग एल्गोरिदम में से एक पोर्टर स्टेमर है, जो 1979 से आसपास है।

कुली का तना

  1. PorterStemmer इम्पोर्ट PorterStemmer और इनिशियलाइज़ करें

     from nltk.stem import PorterStemmer
     from nltk.tokenize import word_tokenize
     ps = PorterStemmer()
    
  2. शब्दों की एक सूची स्टेम

     example_words = ["python","pythoner","pythoning","pythoned","pythonly"]
    
     for w in example_words:
         print(ps.stem(w))
    

    परिणाम:

     python
     python
     python
     python
     pythonli
    
  3. इसे टोकेन करने के बाद एक वाक्य।

     new_text = "It is important to by very pythonly while you are pythoning with python. All pythoners have pythoned poorly at least once."
    
     word_tokens = word_tokenize(new_text)
     for w in word_tokens:
         print(ps.stem(w))   # Passing word tokens into stem method of Porter Stemmer
    

    परिणाम:

     It
     is
     import
     to
     by
     veri
     pythonli
     while
     you
     are
     python
     with
     python
     .
     all
     python
     have
     python
     poorli
     at
     least
     onc
     .
    


Modified text is an extract of the original Stack Overflow Documentation
के तहत लाइसेंस प्राप्त है CC BY-SA 3.0
से संबद्ध नहीं है Stack Overflow