nltk => Tokenizing

परिचय

यह पाठ के शरीर से वाक्यों और शब्दों को क्रमशः टोकन या शब्द टोकन में विभाजित करने को संदर्भित करता है। यह एनएलपी का एक अनिवार्य हिस्सा है, क्योंकि टैग के साथ कई मॉड्यूल बेहतर (या केवल) काम करते हैं। उदाहरण के लिए, pos_tag को टैग के रूप में टैग की आवश्यकता होती है और शब्दों की नहीं, उन्हें भाषण के कुछ हिस्सों द्वारा टैग करने के लिए।

उपयोगकर्ता द्वारा दिए गए पैराग्राफ से वाक्य और शब्द टोकन

from nltk.tokenize import sent_tokenize, word_tokenize
example_text = input("Enter the text:  ")

print("Sentence Tokens:")
print(sent_tokenize(example_text))

print("Word Tokens:")
print(word_tokenize(example_text))

Modified text is an extract of the original Stack Overflow Documentation

के तहत लाइसेंस प्राप्त है CC BY-SA 3.0

से संबद्ध नहीं है Stack Overflow

nltk
Tokenizing

खोज…

परिचय

उपयोगकर्ता द्वारा दिए गए पैराग्राफ से वाक्य और शब्द टोकन