खोज…


टिप्पणियों

एनएलटीके मानव भाषा डेटा के साथ काम करने के लिए पायथन कार्यक्रमों के निर्माण के लिए एक अग्रणी मंच है। यह 50 से अधिक कॉरपोरेट और लेक्सिकल संसाधनों जैसे वर्डनेट के लिए आसान प्रोसेसिंग इंटरफेस प्रदान करता है, साथ ही वर्गीकरण के लिए टेक्स्ट प्रोसेसिंग पुस्तकालयों का एक सूट, टोकन, स्टेमिंग, टैगिंग, पार्सिंग और अर्थमेटिक तर्क, औद्योगिक-शक्ति एनएलपी पुस्तकालयों के लिए रैपर, और एक सक्रिय चर्चा मंच

किताब

पायथन के साथ प्राकृतिक भाषा प्रसंस्करण भाषा प्रसंस्करण के लिए प्रोग्रामिंग के लिए एक व्यावहारिक परिचय प्रदान करता है। एनएलटीके के रचनाकारों द्वारा लिखित, यह पाठक को कार्यक्रमों के मूल सिद्धांतों के माध्यम से गाइड करता है, कॉर्पोरा के साथ काम करना, पाठ को वर्गीकृत करना, भाषाई संरचना का विश्लेषण करना, और बहुत कुछ। पुस्तक को पायथन 3 और एनएलटीके 3 के लिए अपडेट किया जा रहा है। (मूल पायथन 2 संस्करण अभी भी http://nltk.org/book_1ed पर उपलब्ध है।)

संस्करण

एनएलटीके संस्करण इतिहास

संस्करण रिलीज़ की तारीख
3.2.4 ( नवीनतम ) 2017/05/21
3.2 2016/03/03
3.1 2015/10/15

एनएलटीके के साथ

आप वाक्य सीमा का पता लगाने के लिए NLTK (विशेषकर, nltk.tokenize पैकेज) का उपयोग कर सकते हैं:

import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))

आउटपुट:

text_output: ['This is a test.', "Let's try this sentence boundary detector."]

स्थापना या सेटअप

NLTK की आवश्यकता है Python संस्करण 2.7 या 3.4+।

ये निर्देश python संस्करण - 3.5 पर विचार करते हैं


  • मैक / यूनिक्स:

    1. NLTK स्थापित करें: sudo pip install -U nltk
    2. Numpy (वैकल्पिक) स्थापित करें: sudo pip install -U numpy
    3. परीक्षण स्थापना: python चलाएँ फिर import nltk टाइप करें

    नोट: पायथन के पुराने संस्करणों के लिए सेटप्टूल (इंस्टॉल करने के लिए http://pypi.python.org/pypi/setuptools देखें ) और पाइप स्थापित करना आवश्यक हो सकता है (sudo easy_install pip)।


  • खिड़कियाँ :

    ये निर्देश मानते हैं कि आपके मशीन पर पहले से ही पायथन स्थापित नहीं है।

    32-बिट बाइनरी इंस्टॉलेशन

    1. पायथन 3.5 स्थापित करें: http://www.python.org/downloads/ (64-बिट संस्करणों से बचें)
    2. Numpy (वैकल्पिक) स्थापित करें: http://sourceforge.net/projects/numpy/files/NumPy/ (वह संस्करण जो pythnon3.5 निर्दिष्ट करता है)
    3. एनएलटीके स्थापित करें: http://pypi.python.org/pypi/nltk
    4. परीक्षण स्थापना: Start>Python35 , फिर import nltk टाइप करें import nltk


संदर्भ: http://www.nltk.org/install.html

एनएलटीके का डाउनलोड फ़ंक्शन

आप एनएलटीके को pip पर स्थापित कर सकते हैं ( pip install nltk )

अपने पाइथन शेल से, UI का उपयोग करके जो अतिरिक्त पैकेज स्थापित करना चाहते हैं उसे चुनने के लिए फ़ंक्शन ntlk.download() । वैकल्पिक रूप से, आप python -m nltk.downloader [package_name] उपयोग कर सकते हैं।


  • उपलब्ध सभी पैकेजों को डाउनलोड करने के लिए।
nltk.download('all')

  • विशिष्ट पैकेज डाउनलोड करने के लिए।
nltk.download('package-name')

  • विशिष्ट फ़ोल्डर के सभी पैकेज डाउनलोड करने के लिए।
import nltk

dwlr = nltk.downloader.Downloader()

# chunkers, corpora, grammars, help, misc, 
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
    if pkg.subdir== 'taggers':
        dwlr.download(pkg.id)

  • कॉर्पोरा फोल्डर को छोड़कर सभी पैकेज डाउनलोड करने के लिए।
import nltk

dwlr = nltk.downloader.Downloader()

for pkg in dwlr.corpora():
    dwlr._status_cache[pkg.id] = 'installed'

dwlr.download('all')

कॉनडा के साथ एनएलटीके इंस्टॉलेशन।

कॉन्टिनम के anaconda / conda के साथ एनएलटीके स्थापित करने के लिए।

यदि आप एनाकोंडा का उपयोग कर रहे हैं, तो शायद सबसे पहले nltk रूट में डाउनलोड किया जाएगा (हालांकि आपको अभी भी मैन्युअल रूप से विभिन्न पैकेज डाउनलोड करने की आवश्यकता हो सकती है)।

conda का उपयोग करना:

conda install nltk 

nltk का उपयोग करके conda को अपग्रेड करने के लिए:

conda update nltk

anaconda साथ:

यदि आप एनाकोंडा में कई अजगर एनवायरमेंट का उपयोग कर रहे हैं, तो पहले एनवायरमेंट को सक्रिय करें जहां आप nltk इंस्टॉल करना चाहते हैं। आप कमांड का उपयोग करके सक्रिय एनवायरमेंट की जांच कर सकते हैं

conda info --envs

निर्देशिका पथ सक्रिय होने से पहले * साइन के साथ एनवायरमेंट सक्रिय है। सक्रिय पर्यावरण के उपयोग को बदलने के लिए

activate <python_version>
for eg. activate python3.5

अब कमोड का उपयोग करके इस एनवायरमेंट में स्थापित पैकेजों की सूची देखें

conda list

यदि आपको सूची में 'nltk' नहीं मिला है, तो उपयोग करें

conda install -c anaconda nltk=3.2.1

अधिक जानकारी के लिए, आप https://anaconda.org/anaconda/nltk से परामर्श कर सकते हैं।


मिनी-कोंडा उर्फ conda स्थापित करने के लिए: http://conda.pydata.org/docs/install/quick.html

anaconda स्थापित करने के लिए: https://docs.continuum.io/anaconda/install

मूल शर्तें

कोर्पस

पाठ का एकवचन, एकवचन। कॉर्पोरा इस का बहुवचन है। उदाहरण: चिकित्सा पत्रिकाओं का संग्रह।

शब्दकोश

शब्द और उनके अर्थ। उदाहरण: अंग्रेजी शब्दकोश। हालाँकि, इस बात पर विचार करें कि विभिन्न क्षेत्रों में अलग-अलग शब्द होंगे। उदाहरण के लिए: एक वित्तीय निवेशक के लिए, "बुल" शब्द का पहला अर्थ वह है जो बाजार के बारे में आश्वस्त है, जैसा कि आम अंग्रेजी लेक्सिकॉन की तुलना में है, जहां "बुल" शब्द का पहला अर्थ एक जानवर है। जैसे, वित्तीय निवेशकों, डॉक्टरों, बच्चों, यांत्रिकी, और इतने पर के लिए एक विशेष शब्दकोष है।

टोकन

प्रत्येक "संस्था" जो कि नियमों के आधार पर जो कुछ भी विभाजित किया गया था, उसका एक हिस्सा है। उदाहरण के लिए, प्रत्येक शब्द एक टोकन है जब एक वाक्य शब्दों में "टोकन" होता है। प्रत्येक वाक्य एक टोकन भी हो सकता है, यदि आप वाक्यों को एक पैराग्राफ के बाहर टोकन करते हैं।



Modified text is an extract of the original Stack Overflow Documentation
के तहत लाइसेंस प्राप्त है CC BY-SA 3.0
से संबद्ध नहीं है Stack Overflow