nltk Tutoriel => Démarrer avec nltk

Remarques

NLTK est une plate-forme leader pour la création de programmes Python compatibles avec les données de langage humain. Il fournit des interfaces faciles à utiliser pour plus de 50 corpus et ressources lexicales telles que WordNet, ainsi qu'une suite de bibliothèques de traitement de texte pour la classification, la tokenisation, le et un forum de discussion actif.

Le livre

Le traitement du langage naturel avec Python fournit une introduction pratique à la programmation pour le traitement du langage. Ecrit par les créateurs de NLTK, il guide le lecteur à travers les principes fondamentaux de l'écriture de programmes Python, le travail avec des corpus, la catégorisation de texte, l'analyse de la structure linguistique, etc. Le livre est mis à jour pour Python 3 et NLTK 3. (La version originale de Python 2 est toujours disponible sur http://nltk.org/book_1ed .)

Versions

Historique des versions de NLTK

Version	Date de sortie
3.2.4 ( dernier )	2017-05-21
3.2	2016-03-03
3.1	2015-10-15

Avec NLTK

Vous pouvez utiliser NLTK (en particulier le package nltk.tokenize ) pour effectuer la détection des limites de phrase:

import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))

Sortie:

text_output: ['This is a test.', "Let's try this sentence boundary detector."]

Installation ou configuration

NLTK requiert les versions Python 2.7 ou 3.4+ .

Ces instructions tiennent compte de la version de python - 3.5

Mac / Unix:
1. Installez NLTK: lancez sudo pip install -U nltk
2. Installez Numpy (optionnel): lancez sudo pip install -U numpy
3. Test d'installation: lancez python puis tapez import nltk
REMARQUE: Pour les anciennes versions de Python, il peut être nécessaire d’installer setuptools (voir http://pypi.python.org/pypi/setuptools) et d’installer pip (sudo easy_install pip).

Les fenêtres :
Ces instructions supposent que Python n'est pas déjà installé sur votre ordinateur.
Installation binaire 32 bits
1. Installez Python 3.5: http://www.python.org/downloads/ (évitez les versions 64 bits)
2. Installez Numpy (facultatif): http://sourceforge.net/projects/numpy/files/NumPy/ (la version qui spécifie pythnon3.5)
3. Installez NLTK: http://pypi.python.org/pypi/nltk
4. Test d'installation: Start>Python35 , puis tapez import nltk

Installation de logiciels tiers:
S'il vous plaît voir: https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software

Référence: http://www.nltk.org/install.html

Fonction de téléchargement de NLTK

Vous pouvez installer NLTK sur pip ( pip install nltk ). Après son installation, de nombreux composants ne seront plus présents et vous ne pourrez pas utiliser certaines fonctionnalités de NLTK.

À partir de votre shell Python, exécutez la fonction ntlk.download() pour sélectionner les packages supplémentaires que vous souhaitez installer à l'aide de l'interface utilisateur. Vous pouvez également utiliser python -m nltk.downloader [package_name] .

Pour télécharger tous les paquets disponibles.

nltk.download('all')

Pour télécharger un package spécifique.

nltk.download('package-name')

Pour télécharger tous les paquets du dossier spécifique.

import nltk

dwlr = nltk.downloader.Downloader()

# chunkers, corpora, grammars, help, misc, 
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
    if pkg.subdir== 'taggers':
        dwlr.download(pkg.id)

Pour télécharger tous les packages à l'exception du dossier Corpora.

import nltk

dwlr = nltk.downloader.Downloader()

for pkg in dwlr.corpora():
    dwlr._status_cache[pkg.id] = 'installed'

dwlr.download('all')

Installation NLTK avec Conda.

Pour installer NLTK avec l' anaconda / conda .

Si vous utilisez Anaconda, très probablement nltk serait déjà téléchargé dans la racine (bien que vous ayez toujours besoin de télécharger plusieurs paquets manuellement).

En utilisant conda :

conda install nltk

Pour mettre à jour nltk utilisant conda :

conda update nltk

Avec anaconda :

Si vous utilisez plusieurs environnements Python dans anaconda, activez d'abord l'environnement dans lequel vous souhaitez installer nltk. Vous pouvez vérifier l'environnement actif en utilisant la commande

conda info --envs

L'environnement avec le signe * avant le chemin du répertoire est actif. Pour changer l'utilisation de l'environnement actif

activate <python_version>
for eg. activate python3.5

Maintenant, vérifiez la liste des paquets installés dans cet environnement en utilisant commnad

conda list

Si vous ne trouvez pas 'nltk' dans la liste, utilisez

conda install -c anaconda nltk=3.2.1

Pour plus d'informations, vous pouvez consulter https://anaconda.org/anaconda/nltk .

Pour installer la mini-conda aka conda : http://conda.pydata.org/docs/install/quick.html

Pour installer anaconda : https://docs.continuum.io/anaconda/install

Termes de base

Corpus

Corps de texte, singulier. Les corpus sont le pluriel de ceci. Exemple: Une collection de revues médicales.

Lexique

Les mots et leurs significations. Exemple: dictionnaire anglais. Considérez cependant que différents champs auront des lexiques différents. Par exemple: Pour un investisseur financier, la première signification du mot "Bull" est une personne qui a confiance dans le marché, par rapport au lexique anglais commun, où la première signification du mot "Bull" est un animal. À ce titre, il existe un lexique spécial pour les investisseurs financiers, les médecins, les enfants, les mécaniciens, etc.

Jeton

Chaque "entité" qui fait partie de ce qui a été divisé en fonction des règles. Pour des exemples, chaque mot est un jeton lorsqu'une phrase est "tokenized" en mots. Chaque phrase peut aussi être un jeton, si vous avez numéroté les phrases d'un paragraphe.

Modified text is an extract of the original Stack Overflow Documentation

Sous licence CC BY-SA 3.0

Non affilié à Stack Overflow

nltk Tutoriel
Démarrer avec nltk

Recherche…