nltk Handledning
Komma igång med nltk
Sök…
Anmärkningar
NLTK är en ledande plattform för att bygga Python- program för att arbeta med mänskliga språkdata. Det ger användarvänliga gränssnitt till över 50 företag och leksikala resurser som WordNet, tillsammans med en serie textbearbetningsbibliotek för klassificering, tokenisering, stemming, tagging, parsing och semantisk resonemang, omslag för industriella styrkor NLP-bibliotek, och ett aktivt diskussionsforum .
Boken
Natural Language Processing with Python ger en praktisk introduktion till programmering för språkbehandling. Skrivet av skaparna av NLTK guidar det läsaren genom grunderna i att skriva Python-program, arbeta med corpora, kategorisera text, analysera språklig struktur och mer. Boken uppdateras för Python 3 och NLTK 3. (Den ursprungliga versionen av Python 2 är fortfarande tillgänglig på http://nltk.org/book_1ed .)
versioner
NLTK Versionshistorik
| Version | Utgivningsdatum |
|---|---|
| 3.2.4 ( senaste ) | 2017/05/21 |
| 3,2 | 2016/03/03 |
| 3,1 | 2015/10/15 |
Med NLTK
Du kan använda NLTK (speciellt paketet nltk.tokenize ) för att utföra detektering av meningsgränser:
import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))
Produktion:
text_output: ['This is a test.', "Let's try this sentence boundary detector."]
Installation eller installation
NLTK kräver Python versionerna 2.7 eller 3.4+ .
Dessa instruktioner överväger python - 3.5
Mac / Unix:
- Installera NLTK: kör
sudo pip install -U nltk - Installera Numpy (valfritt): kör
sudo pip install -U numpy - Testinstallation: kör
pythonoch skriv sedanimport nltk
OBS: För äldre versioner av Python kan det vara nödvändigt att installera setuptools (se http://pypi.python.org/pypi/setuptools) och installera pip (sudo easy_install pip).
- Installera NLTK: kör
Windows:
Dessa instruktioner antar att du inte redan har Python installerat på din maskin.
32-bitars binär installation
- Installera Python 3.5: http://www.python.org/downloads/ (undvik 64-bitarsversionerna)
- Installera Numpy (valfritt): http://sourceforge.net/projects/numpy/files/NumPy/ (versionen som anger pythnon3.5)
- Installera NLTK: http://pypi.python.org/pypi/nltk
- Testinstallation:
Start>Python35, skriv sedanimport nltk
Installera programvara från tredje part:
Se: https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software
Referens: http://www.nltk.org/install.html
NLTK: s nedladdningsfunktion
Du kan installera NLTK via pip ( pip install nltk ). Efter att den är installerad kommer många komponenter inte att finnas, och du kommer inte att kunna använda några av NLTK: s funktioner.
Från ditt Python-skal kör du funktionen ntlk.download() att välja vilka ytterligare paket du vill installera med UI. Alternativt kan du använda python -m nltk.downloader [package_name] .
- För att ladda ner alla tillgängliga paket.
nltk.download('all')
- För att ladda ner specifikt paket.
nltk.download('package-name')
- För att ladda ner alla paket med en specifik mapp.
import nltk
dwlr = nltk.downloader.Downloader()
# chunkers, corpora, grammars, help, misc,
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
if pkg.subdir== 'taggers':
dwlr.download(pkg.id)
- För att ladda ner alla paket utom Corpora Folder.
import nltk
dwlr = nltk.downloader.Downloader()
for pkg in dwlr.corpora():
dwlr._status_cache[pkg.id] = 'installed'
dwlr.download('all')
NLTK installation med Conda.
För att installera NLTK med Continuums anaconda / conda .
Om du använder Anaconda, skulle antagligen nltk redan laddats ner i roten (även om du fortfarande kan behöva ladda ner olika paket manuellt).
Använda conda :
conda install nltk
För att uppgradera nltk med conda :
conda update nltk
Med anaconda :
Om du använder flera pythonmiljöer i anaconda, aktivera först miljön där du vill installera nltk. Du kan kontrollera det aktiva miljön med kommandot
conda info --envs
Miljön med * -tecknet före katalogvägen är den aktiva. För att ändra användningen av aktivt miljö
activate <python_version>
for eg. activate python3.5
Kontrollera nu listan över paket installerade i det här miljön med kommnad
conda list
Om du inte hittar 'nltk' i listan, använd
conda install -c anaconda nltk=3.2.1
För ytterligare information, se https://anaconda.org/anaconda/nltk .
Så här installerar du mini-conda aka conda : http://conda.pydata.org/docs/install/quick.html
Så här installerar du anaconda : https://docs.continuum.io/anaconda/install
Grundläggande villkor
Corpus
Textens kropp, singular. Corpora är flertalet av detta. Exempel: En samling medicinska tidskrifter.
Lexikon
Ord och deras betydelse. Exempel: Engelsk ordbok. Tänk dock på att olika fält har olika leksikon. Till exempel: För en finansiell investerare är den första betydelsen för ordet "Bull" någon som är säker på marknaden jämfört med det vanliga engelska lexikonet, där den första betydelsen för ordet "Bull" är ett djur. Som sådan finns det ett speciellt lexikon för finansiella investerare, läkare, barn, mekanik och så vidare.
Tecken
Varje "enhet" som är en del av vad som helst delades upp baserat på regler. Som exempel är varje ord ett symbol när en mening "tokeniseras" till ord. Varje mening kan också vara ett symbol, om du markerar meningarna i ett stycke.