nltk => स्टेमिंग

परिचय

स्टेमिंग एक तरह की सामान्य विधि है। शब्दों के कई रूपांतर एक ही अर्थ को ले जाते हैं, जब तनाव शामिल होता है। कारण यह है कि हम स्टेम को लुकअप को छोटा करते हैं, और वाक्यों को सामान्य करते हैं। मूल रूप से, यह क्रिया और तनाव वाले भाग को हटाने के बाद शब्दों की जड़ का पता लगा रहा है। सबसे लोकप्रिय स्टेमिंग एल्गोरिदम में से एक पोर्टर स्टेमर है, जो 1979 से आसपास है।

कुली का तना

PorterStemmer इम्पोर्ट PorterStemmer और इनिशियलाइज़ करें
```
 from nltk.stem import PorterStemmer
 from nltk.tokenize import word_tokenize
 ps = PorterStemmer()
```

शब्दों की एक सूची स्टेम

 example_words = ["python","pythoner","pythoning","pythoned","pythonly"]

 for w in example_words:
     print(ps.stem(w))

परिणाम:

 python
 python
 python
 python
 pythonli

इसे टोकेन करने के बाद एक वाक्य।

 new_text = "It is important to by very pythonly while you are pythoning with python. All pythoners have pythoned poorly at least once."

 word_tokens = word_tokenize(new_text)
 for w in word_tokens:
     print(ps.stem(w))   # Passing word tokens into stem method of Porter Stemmer

परिणाम:

 It
 is
 import
 to
 by
 veri
 pythonli
 while
 you
 are
 python
 with
 python
 .
 all
 python
 have
 python
 poorli
 at
 least
 onc
 .

Modified text is an extract of the original Stack Overflow Documentation

के तहत लाइसेंस प्राप्त है CC BY-SA 3.0

से संबद्ध नहीं है Stack Overflow

nltk
स्टेमिंग

खोज…

परिचय

कुली का तना