nltk Tutoriel
Démarrer avec nltk
Recherche…
Remarques
NLTK est une plate-forme leader pour la création de programmes Python compatibles avec les données de langage humain. Il fournit des interfaces faciles à utiliser pour plus de 50 corpus et ressources lexicales telles que WordNet, ainsi qu'une suite de bibliothèques de traitement de texte pour la classification, la tokenisation, le et un forum de discussion actif.
Le livre
Le traitement du langage naturel avec Python fournit une introduction pratique à la programmation pour le traitement du langage. Ecrit par les créateurs de NLTK, il guide le lecteur à travers les principes fondamentaux de l'écriture de programmes Python, le travail avec des corpus, la catégorisation de texte, l'analyse de la structure linguistique, etc. Le livre est mis à jour pour Python 3 et NLTK 3. (La version originale de Python 2 est toujours disponible sur http://nltk.org/book_1ed .)
Versions
Historique des versions de NLTK
| Version | Date de sortie |
|---|---|
| 3.2.4 ( dernier ) | 2017-05-21 |
| 3.2 | 2016-03-03 |
| 3.1 | 2015-10-15 |
Avec NLTK
Vous pouvez utiliser NLTK (en particulier le package nltk.tokenize ) pour effectuer la détection des limites de phrase:
import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))
Sortie:
text_output: ['This is a test.', "Let's try this sentence boundary detector."]
Installation ou configuration
NLTK requiert les versions Python 2.7 ou 3.4+ .
Ces instructions tiennent compte de la version de python - 3.5
Mac / Unix:
- Installez NLTK: lancez
sudo pip install -U nltk - Installez Numpy (optionnel): lancez
sudo pip install -U numpy - Test d'installation: lancez
pythonpuis tapezimport nltk
REMARQUE: Pour les anciennes versions de Python, il peut être nécessaire d’installer setuptools (voir http://pypi.python.org/pypi/setuptools) et d’installer pip (sudo easy_install pip).
- Installez NLTK: lancez
Les fenêtres :
Ces instructions supposent que Python n'est pas déjà installé sur votre ordinateur.
Installation binaire 32 bits
- Installez Python 3.5: http://www.python.org/downloads/ (évitez les versions 64 bits)
- Installez Numpy (facultatif): http://sourceforge.net/projects/numpy/files/NumPy/ (la version qui spécifie pythnon3.5)
- Installez NLTK: http://pypi.python.org/pypi/nltk
- Test d'installation:
Start>Python35, puis tapezimport nltk
Installation de logiciels tiers:
S'il vous plaît voir: https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software
Référence: http://www.nltk.org/install.html
Fonction de téléchargement de NLTK
Vous pouvez installer NLTK sur pip ( pip install nltk ). Après son installation, de nombreux composants ne seront plus présents et vous ne pourrez pas utiliser certaines fonctionnalités de NLTK.
À partir de votre shell Python, exécutez la fonction ntlk.download() pour sélectionner les packages supplémentaires que vous souhaitez installer à l'aide de l'interface utilisateur. Vous pouvez également utiliser python -m nltk.downloader [package_name] .
- Pour télécharger tous les paquets disponibles.
nltk.download('all')
- Pour télécharger un package spécifique.
nltk.download('package-name')
- Pour télécharger tous les paquets du dossier spécifique.
import nltk
dwlr = nltk.downloader.Downloader()
# chunkers, corpora, grammars, help, misc,
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
if pkg.subdir== 'taggers':
dwlr.download(pkg.id)
- Pour télécharger tous les packages à l'exception du dossier Corpora.
import nltk
dwlr = nltk.downloader.Downloader()
for pkg in dwlr.corpora():
dwlr._status_cache[pkg.id] = 'installed'
dwlr.download('all')
Installation NLTK avec Conda.
Pour installer NLTK avec l' anaconda / conda .
Si vous utilisez Anaconda, très probablement nltk serait déjà téléchargé dans la racine (bien que vous ayez toujours besoin de télécharger plusieurs paquets manuellement).
En utilisant conda :
conda install nltk
Pour mettre à jour nltk utilisant conda :
conda update nltk
Avec anaconda :
Si vous utilisez plusieurs environnements Python dans anaconda, activez d'abord l'environnement dans lequel vous souhaitez installer nltk. Vous pouvez vérifier l'environnement actif en utilisant la commande
conda info --envs
L'environnement avec le signe * avant le chemin du répertoire est actif. Pour changer l'utilisation de l'environnement actif
activate <python_version>
for eg. activate python3.5
Maintenant, vérifiez la liste des paquets installés dans cet environnement en utilisant commnad
conda list
Si vous ne trouvez pas 'nltk' dans la liste, utilisez
conda install -c anaconda nltk=3.2.1
Pour plus d'informations, vous pouvez consulter https://anaconda.org/anaconda/nltk .
Pour installer la mini-conda aka conda : http://conda.pydata.org/docs/install/quick.html
Pour installer anaconda : https://docs.continuum.io/anaconda/install
Termes de base
Corpus
Corps de texte, singulier. Les corpus sont le pluriel de ceci. Exemple: Une collection de revues médicales.
Lexique
Les mots et leurs significations. Exemple: dictionnaire anglais. Considérez cependant que différents champs auront des lexiques différents. Par exemple: Pour un investisseur financier, la première signification du mot "Bull" est une personne qui a confiance dans le marché, par rapport au lexique anglais commun, où la première signification du mot "Bull" est un animal. À ce titre, il existe un lexique spécial pour les investisseurs financiers, les médecins, les enfants, les mécaniciens, etc.
Jeton
Chaque "entité" qui fait partie de ce qui a été divisé en fonction des règles. Pour des exemples, chaque mot est un jeton lorsqu'une phrase est "tokenized" en mots. Chaque phrase peut aussi être un jeton, si vous avez numéroté les phrases d'un paragraphe.