nltk => आवृत्ति वितरण

परिचय

यह विषय nltk.FreqDist () वर्ग के उपयोग पर केंद्रित है।

सबसे सामान्य लेक्सिकल श्रेणियों की गणना के लिए आवृत्ति वितरण

एनएलटीके फ्रीकडिस्ट क्लास प्रदान करता है कि आइए इनपुट के रूप में एक सूची दिए गए आवृत्ति वितरण की आसानी से गणना करें।

यहां हम भाषण टैग (पीओएस टैग) के एक भाग की एक सूची का उपयोग कर रहे हैं, यह देखने के लिए कि भूरे रंग के कोरस में कौन से लेक्ज़िकल श्रेणियां सबसे अधिक उपयोग की जाती हैं।

import nltk

brown_tagged = nltk.corpus.brown.tagged_words()
pos_tags = [pos_tag for _,pos_tag in brown_tagged]


fd = nltk.FreqDist(pos_tags)
print(fd.most_common(5))

# Out: [('NN', 152470), ('IN', 120557), ('AT', 97959), ('JJ', 64028), ('.', 60638)]

हम देख सकते हैं कि Nouns सबसे आम लेक्सिकल श्रेणी हैं। फ्रीक्वेंसी डिस्ट्रीब्यूशन को डिक्शनरी की तरह ही एक्सेस किया जा सकता है। इसलिए ऐसा करने से हम गणना कर सकते हैं कि भूरे रंग के कोष में कितने प्रतिशत शब्द संज्ञा हैं।

print(fd['NN'] / len(pos_tags))
# Out: 0.1313

Modified text is an extract of the original Stack Overflow Documentation

के तहत लाइसेंस प्राप्त है CC BY-SA 3.0

से संबद्ध नहीं है Stack Overflow

nltk
आवृत्ति वितरण

खोज…

परिचय

सबसे सामान्य लेक्सिकल श्रेणियों की गणना के लिए आवृत्ति वितरण