nltk Tutorial
Iniziare con nltk
Ricerca…
Osservazioni
NLTK è una piattaforma leader per la creazione di programmi Python per lavorare con i dati del linguaggio umano. Fornisce interfacce facili da usare per oltre 50 corpora e risorse lessicali come WordNet, insieme a una suite di librerie di elaborazione testi per classificazione, tokenizzazione, arginamento, etichettatura, analisi e ragionamento semantico, wrapper per librerie NLP a resistenza industriale, e un forum di discussione attivo.
Il libro
L'elaborazione del linguaggio naturale con Python fornisce un'introduzione pratica alla programmazione per l'elaborazione del linguaggio. Scritto dai creatori di NLTK, guida il lettore attraverso i fondamenti della scrittura di programmi Python, lavorando con i corpora, categorizzando il testo, analizzando la struttura linguistica e altro ancora. Il libro è in fase di aggiornamento per Python 3 e NLTK 3. (La versione originale di Python 2 è ancora disponibile su http://nltk.org/book_1ed .)
Versioni
Cronologia delle versioni NLTK
| Versione | Data di rilascio |
|---|---|
| 3.2.4 ( ultimo ) | 2017/05/21 |
| 3.2 | 2016/03/03 |
| 3.1 | 2015/10/15 |
Con NLTK
È possibile utilizzare NLTK (in particolare, il pacchetto nltk.tokenize ) per eseguire il rilevamento dei limiti di frase:
import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))
Produzione:
text_output: ['This is a test.', "Let's try this sentence boundary detector."]
Installazione o configurazione
NLTK richiede le versioni di Python 2.7 o 3.4+ .
Queste istruzioni considerano la versione di python - 3.5
Mac / Unix:
- Installa NLTK: esegui
sudo pip install -U nltk - Installa Numpy (opzionale): esegui
sudo pip install -U numpy - Prova di installazione: esegui
pythonquindi digitaimport nltk
NOTA: per le versioni precedenti di Python potrebbe essere necessario installare setuptools (consultare http://pypi.python.org/pypi/setuptools) e installare pip (sudo easy_install pip).
- Installa NLTK: esegui
Finestre :
Queste istruzioni presumono che tu non abbia già installato Python sul tuo computer.
Installazione binaria a 32 bit
- Installa Python 3.5: http://www.python.org/downloads/ (evita le versioni a 64 bit)
- Installa Numpy (opzionale): http://sourceforge.net/projects/numpy/files/NumPy/ (la versione che specifica pythnon3.5)
- Installa NLTK: http://pypi.python.org/pypi/nltk
- Test di installazione:
Start>Python35, quindi digitareimport nltk
Installazione del software di terze parti:
Si prega di consultare: https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software
Riferimento: http://www.nltk.org/install.html
La funzione di download di NLTK
È possibile installare NLTK su pip ( pip install nltk ). Dopo l'installazione, molti componenti non saranno presenti e non sarà possibile utilizzare alcune delle funzionalità di NLTK.
Dalla shell Python, eseguire la funzione ntlk.download() per selezionare quali pacchetti aggiuntivi si desidera installare utilizzando l'interfaccia utente. In alternativa, è possibile utilizzare python -m nltk.downloader [package_name] .
- Per scaricare tutti i pacchetti disponibili.
nltk.download('all')
- Per scaricare pacchetti specifici.
nltk.download('package-name')
- Per scaricare tutti i pacchetti di una cartella specifica.
import nltk
dwlr = nltk.downloader.Downloader()
# chunkers, corpora, grammars, help, misc,
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
if pkg.subdir== 'taggers':
dwlr.download(pkg.id)
- Per scaricare tutti i pacchetti tranne Corpora Folder.
import nltk
dwlr = nltk.downloader.Downloader()
for pkg in dwlr.corpora():
dwlr._status_cache[pkg.id] = 'installed'
dwlr.download('all')
Installazione NLTK con Conda.
Per installare NLTK con anaconda / conda di Continuum.
Se si utilizza Anaconda, molto probabilmente nltk sarebbe già stato scaricato nella root (anche se potrebbe essere ancora necessario scaricare vari pacchetti manualmente).
Usando conda :
conda install nltk
Per aggiornare nltk usando conda :
conda update nltk
Con anaconda :
Se si utilizzano più envriroments python in anaconda, attivare prima l'ambiente in cui si desidera installare nltk. È possibile controllare l'ambiente attivo utilizzando il comando
conda info --envs
L'ambiente con il segno * prima del percorso della directory è quello attivo. Per cambiare l'uso dell'ambiente attivo
activate <python_version>
for eg. activate python3.5
Ora controlla l'elenco dei pacchetti installati in questo ambiente usando commnad
conda list
Se non trovi 'nltk' nella lista, usa
conda install -c anaconda nltk=3.2.1
Per ulteriori informazioni, è possibile consultare https://anaconda.org/anaconda/nltk .
Per installare mini conda alias conda : http://conda.pydata.org/docs/install/quick.html
Per installare anaconda : https://docs.continuum.io/anaconda/install
Termini di base
corpo
Corpo di testo, singolare. Corpora è il plurale di questo. Esempio: una raccolta di riviste mediche.
Lessico
Parole e loro significati. Esempio: dizionario inglese. Si consideri, tuttavia, che vari campi avranno lessici diversi. Ad esempio: per un investitore finanziario, il primo significato per la parola "Bull" è qualcuno che è sicuro del mercato, rispetto al lessico inglese comune, in cui il primo significato della parola "Toro" è un animale. In quanto tale, esiste un lessico speciale per investitori finanziari, medici, bambini, meccanici e così via.
Gettone
Ogni "entità" che è parte di ciò che è stato diviso in base alle regole. Ad esempio, ogni parola è un token quando una frase viene "tokenizzata" in parole. Ogni frase può anche essere un token, se hai tokenizzato le frasi da un paragrafo.