Sök…


Anmärkningar

NLTK är en ledande plattform för att bygga Python- program för att arbeta med mänskliga språkdata. Det ger användarvänliga gränssnitt till över 50 företag och leksikala resurser som WordNet, tillsammans med en serie textbearbetningsbibliotek för klassificering, tokenisering, stemming, tagging, parsing och semantisk resonemang, omslag för industriella styrkor NLP-bibliotek, och ett aktivt diskussionsforum .

Boken

Natural Language Processing with Python ger en praktisk introduktion till programmering för språkbehandling. Skrivet av skaparna av NLTK guidar det läsaren genom grunderna i att skriva Python-program, arbeta med corpora, kategorisera text, analysera språklig struktur och mer. Boken uppdateras för Python 3 och NLTK 3. (Den ursprungliga versionen av Python 2 är fortfarande tillgänglig på http://nltk.org/book_1ed .)

versioner

NLTK Versionshistorik

Version Utgivningsdatum
3.2.4 ( senaste ) 2017/05/21
3,2 2016/03/03
3,1 2015/10/15

Med NLTK

Du kan använda NLTK (speciellt paketet nltk.tokenize ) för att utföra detektering av meningsgränser:

import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))

Produktion:

text_output: ['This is a test.', "Let's try this sentence boundary detector."]

Installation eller installation

NLTK kräver Python versionerna 2.7 eller 3.4+ .

Dessa instruktioner överväger python - 3.5


  • Mac / Unix:

    1. Installera NLTK: kör sudo pip install -U nltk
    2. Installera Numpy (valfritt): kör sudo pip install -U numpy
    3. Testinstallation: kör python och skriv sedan import nltk

    OBS: För äldre versioner av Python kan det vara nödvändigt att installera setuptools (se http://pypi.python.org/pypi/setuptools) och installera pip (sudo easy_install pip).




Referens: http://www.nltk.org/install.html

NLTK: s nedladdningsfunktion

Du kan installera NLTK via pip ( pip install nltk ). Efter att den är installerad kommer många komponenter inte att finnas, och du kommer inte att kunna använda några av NLTK: s funktioner.

Från ditt Python-skal kör du funktionen ntlk.download() att välja vilka ytterligare paket du vill installera med UI. Alternativt kan du använda python -m nltk.downloader [package_name] .


  • För att ladda ner alla tillgängliga paket.
nltk.download('all')

  • För att ladda ner specifikt paket.
nltk.download('package-name')

  • För att ladda ner alla paket med en specifik mapp.
import nltk

dwlr = nltk.downloader.Downloader()

# chunkers, corpora, grammars, help, misc, 
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
    if pkg.subdir== 'taggers':
        dwlr.download(pkg.id)

  • För att ladda ner alla paket utom Corpora Folder.
import nltk

dwlr = nltk.downloader.Downloader()

for pkg in dwlr.corpora():
    dwlr._status_cache[pkg.id] = 'installed'

dwlr.download('all')

NLTK installation med Conda.

För att installera NLTK med Continuums anaconda / conda .

Om du använder Anaconda, skulle antagligen nltk redan laddats ner i roten (även om du fortfarande kan behöva ladda ner olika paket manuellt).

Använda conda :

conda install nltk 

För att uppgradera nltk med conda :

conda update nltk

Med anaconda :

Om du använder flera pythonmiljöer i anaconda, aktivera först miljön där du vill installera nltk. Du kan kontrollera det aktiva miljön med kommandot

conda info --envs

Miljön med * -tecknet före katalogvägen är den aktiva. För att ändra användningen av aktivt miljö

activate <python_version>
for eg. activate python3.5

Kontrollera nu listan över paket installerade i det här miljön med kommnad

conda list

Om du inte hittar 'nltk' i listan, använd

conda install -c anaconda nltk=3.2.1

För ytterligare information, se https://anaconda.org/anaconda/nltk .


Så här installerar du mini-conda aka conda : http://conda.pydata.org/docs/install/quick.html

Så här installerar du anaconda : https://docs.continuum.io/anaconda/install

Grundläggande villkor

Corpus

Textens kropp, singular. Corpora är flertalet av detta. Exempel: En samling medicinska tidskrifter.

Lexikon

Ord och deras betydelse. Exempel: Engelsk ordbok. Tänk dock på att olika fält har olika leksikon. Till exempel: För en finansiell investerare är den första betydelsen för ordet "Bull" någon som är säker på marknaden jämfört med det vanliga engelska lexikonet, där den första betydelsen för ordet "Bull" är ett djur. Som sådan finns det ett speciellt lexikon för finansiella investerare, läkare, barn, mekanik och så vidare.

Tecken

Varje "enhet" som är en del av vad som helst delades upp baserat på regler. Som exempel är varje ord ett symbol när en mening "tokeniseras" till ord. Varje mening kan också vara ett symbol, om du markerar meningarna i ett stycke.



Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow