Ricerca…


Osservazioni

NLTK è una piattaforma leader per la creazione di programmi Python per lavorare con i dati del linguaggio umano. Fornisce interfacce facili da usare per oltre 50 corpora e risorse lessicali come WordNet, insieme a una suite di librerie di elaborazione testi per classificazione, tokenizzazione, arginamento, etichettatura, analisi e ragionamento semantico, wrapper per librerie NLP a resistenza industriale, e un forum di discussione attivo.

Il libro

L'elaborazione del linguaggio naturale con Python fornisce un'introduzione pratica alla programmazione per l'elaborazione del linguaggio. Scritto dai creatori di NLTK, guida il lettore attraverso i fondamenti della scrittura di programmi Python, lavorando con i corpora, categorizzando il testo, analizzando la struttura linguistica e altro ancora. Il libro è in fase di aggiornamento per Python 3 e NLTK 3. (La versione originale di Python 2 è ancora disponibile su http://nltk.org/book_1ed .)

Versioni

Cronologia delle versioni NLTK

Versione Data di rilascio
3.2.4 ( ultimo ) 2017/05/21
3.2 2016/03/03
3.1 2015/10/15

Con NLTK

È possibile utilizzare NLTK (in particolare, il pacchetto nltk.tokenize ) per eseguire il rilevamento dei limiti di frase:

import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))

Produzione:

text_output: ['This is a test.', "Let's try this sentence boundary detector."]

Installazione o configurazione

NLTK richiede le versioni di Python 2.7 o 3.4+ .

Queste istruzioni considerano la versione di python - 3.5


  • Mac / Unix:

    1. Installa NLTK: esegui sudo pip install -U nltk
    2. Installa Numpy (opzionale): esegui sudo pip install -U numpy
    3. Prova di installazione: esegui python quindi digita import nltk

    NOTA: per le versioni precedenti di Python potrebbe essere necessario installare setuptools (consultare http://pypi.python.org/pypi/setuptools) e installare pip (sudo easy_install pip).




Riferimento: http://www.nltk.org/install.html

La funzione di download di NLTK

È possibile installare NLTK su pip ( pip install nltk ). Dopo l'installazione, molti componenti non saranno presenti e non sarà possibile utilizzare alcune delle funzionalità di NLTK.

Dalla shell Python, eseguire la funzione ntlk.download() per selezionare quali pacchetti aggiuntivi si desidera installare utilizzando l'interfaccia utente. In alternativa, è possibile utilizzare python -m nltk.downloader [package_name] .


  • Per scaricare tutti i pacchetti disponibili.
nltk.download('all')

  • Per scaricare pacchetti specifici.
nltk.download('package-name')

  • Per scaricare tutti i pacchetti di una cartella specifica.
import nltk

dwlr = nltk.downloader.Downloader()

# chunkers, corpora, grammars, help, misc, 
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
    if pkg.subdir== 'taggers':
        dwlr.download(pkg.id)

  • Per scaricare tutti i pacchetti tranne Corpora Folder.
import nltk

dwlr = nltk.downloader.Downloader()

for pkg in dwlr.corpora():
    dwlr._status_cache[pkg.id] = 'installed'

dwlr.download('all')

Installazione NLTK con Conda.

Per installare NLTK con anaconda / conda di Continuum.

Se si utilizza Anaconda, molto probabilmente nltk sarebbe già stato scaricato nella root (anche se potrebbe essere ancora necessario scaricare vari pacchetti manualmente).

Usando conda :

conda install nltk 

Per aggiornare nltk usando conda :

conda update nltk

Con anaconda :

Se si utilizzano più envriroments python in anaconda, attivare prima l'ambiente in cui si desidera installare nltk. È possibile controllare l'ambiente attivo utilizzando il comando

conda info --envs

L'ambiente con il segno * prima del percorso della directory è quello attivo. Per cambiare l'uso dell'ambiente attivo

activate <python_version>
for eg. activate python3.5

Ora controlla l'elenco dei pacchetti installati in questo ambiente usando commnad

conda list

Se non trovi 'nltk' nella lista, usa

conda install -c anaconda nltk=3.2.1

Per ulteriori informazioni, è possibile consultare https://anaconda.org/anaconda/nltk .


Per installare mini conda alias conda : http://conda.pydata.org/docs/install/quick.html

Per installare anaconda : https://docs.continuum.io/anaconda/install

Termini di base

corpo

Corpo di testo, singolare. Corpora è il plurale di questo. Esempio: una raccolta di riviste mediche.

Lessico

Parole e loro significati. Esempio: dizionario inglese. Si consideri, tuttavia, che vari campi avranno lessici diversi. Ad esempio: per un investitore finanziario, il primo significato per la parola "Bull" è qualcuno che è sicuro del mercato, rispetto al lessico inglese comune, in cui il primo significato della parola "Toro" è un animale. In quanto tale, esiste un lessico speciale per investitori finanziari, medici, bambini, meccanici e così via.

Gettone

Ogni "entità" che è parte di ciò che è stato diviso in base alle regole. Ad esempio, ogni parola è un token quando una frase viene "tokenizzata" in parole. Ogni frase può anche essere un token, se hai tokenizzato le frasi da un paragrafo.



Modified text is an extract of the original Stack Overflow Documentation
Autorizzato sotto CC BY-SA 3.0
Non affiliato con Stack Overflow