nltk
आवृत्ति वितरण
खोज…
परिचय
यह विषय nltk.FreqDist () वर्ग के उपयोग पर केंद्रित है।
सबसे सामान्य लेक्सिकल श्रेणियों की गणना के लिए आवृत्ति वितरण
एनएलटीके फ्रीकडिस्ट क्लास प्रदान करता है कि आइए इनपुट के रूप में एक सूची दिए गए आवृत्ति वितरण की आसानी से गणना करें।
यहां हम भाषण टैग (पीओएस टैग) के एक भाग की एक सूची का उपयोग कर रहे हैं, यह देखने के लिए कि भूरे रंग के कोरस में कौन से लेक्ज़िकल श्रेणियां सबसे अधिक उपयोग की जाती हैं।
import nltk
brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]
fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))
# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]
हम देख सकते हैं कि Nouns सबसे आम लेक्सिकल श्रेणी हैं। फ्रीक्वेंसी डिस्ट्रीब्यूशन को डिक्शनरी की तरह ही एक्सेस किया जा सकता है। इसलिए ऐसा करने से हम गणना कर सकते हैं कि भूरे रंग के कोष में कितने प्रतिशत शब्द संज्ञा हैं।
print(fd['NN'] / len(pos_tags))
# Out: 0.1313
Modified text is an extract of the original Stack Overflow Documentation
के तहत लाइसेंस प्राप्त है CC BY-SA 3.0
से संबद्ध नहीं है Stack Overflow