nltk Tutorial
Erste Schritte mit nltk
Suche…
Bemerkungen
NLTK ist eine führende Plattform für die Erstellung von Python- Programmen zur Arbeit mit Daten in der menschlichen Sprache. Es bietet benutzerfreundliche Schnittstellen für über 50 korporative und lexikalische Ressourcen wie WordNet sowie eine Reihe von Textverarbeitungsbibliotheken für Klassifizierung, Tokenisierung, Stemming, Tagging, Parsen und semantisches Denken, Wrapper für NLP-Bibliotheken mit industrieller Stärke. und ein aktives Diskussionsforum .
Das Buch
Natural Language Processing mit Python bietet eine praktische Einführung in die Programmierung für die Sprachverarbeitung. Es wurde von den Entwicklern von NLTK geschrieben und führt den Leser durch die Grundlagen des Schreibens von Python-Programmen, der Arbeit mit Korpora, der Kategorisierung von Text, der Analyse der sprachlichen Struktur und mehr. Das Buch wird für Python 3 und NLTK 3 aktualisiert. (Die ursprüngliche Python 2-Version ist noch immer unter http://nltk.org/book_1ed verfügbar.)
Versionen
NLTK-Versionsverlauf
| Ausführung | Veröffentlichungsdatum |
|---|---|
| 3.2.4 ( zuletzt ) | 2017-05-21 |
| 3.2 | 2016-03-03 |
| 3.1 | 2015-10-15 |
Mit NLTK
Sie können NLTK (insbesondere das Paket nltk.tokenize ) verwenden, um die Erkennung von nltk.tokenize durchzuführen:
import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))
Ausgabe:
text_output: ['This is a test.', "Let's try this sentence boundary detector."]
Installation oder Setup
NLTK erfordert Python Versionen 2.7 oder 3.4 und höher .
Diese Anweisungen berücksichtigen die python Version 3.5
Mac / Unix:
- Installieren Sie NLTK: Führen Sie
sudo pip install -U nltk - Install Numpy (optional): Führen Sie
sudo pip install -U numpy - Testinstallation: Führen Sie
pythonund geben Sieimport nltk
HINWEIS: Bei älteren Python-Versionen müssen möglicherweise Setuptools installiert werden (siehe http://pypi.python.org/pypi/setuptools) und pip (sudo easy_install pip) installiert werden.
- Installieren Sie NLTK: Führen Sie
Windows:
Diese Anweisungen setzen voraus, dass Python noch nicht auf Ihrem Computer installiert ist.
32-Bit-Binärinstallation
- Installieren Sie Python 3.5: http://www.python.org/downloads/ (vermeiden Sie die 64-Bit-Versionen)
- Installieren Sie Numpy (optional): http://sourceforge.net/projects/numpy/files/NumPy/ (die Version, die pythnon3.5 angibt)
- Installieren Sie NLTK: http://pypi.python.org/pypi/nltk
- Testinstallation:
Start>Python35, und geben Sieimport nltk
Software von Drittanbietern installieren:
Siehe auch: https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software
Referenz: http://www.nltk.org/install.html
NLTK-Downloadfunktion
Sie können NLTK über pip pip install nltk ( pip install nltk ). Nach der Installation sind viele Komponenten nicht vorhanden und Sie können einige der Funktionen von NLTK nicht verwenden.
Führen Sie in Ihrer Python-Shell die Funktion ntlk.download() um auszuwählen, welche zusätzlichen Pakete Sie mithilfe der Benutzeroberfläche installieren möchten. Alternativ können Sie auch python -m nltk.downloader [package_name] .
- Alle verfügbaren Pakete herunterladen.
nltk.download('all')
- Um ein bestimmtes Paket herunterzuladen.
nltk.download('package-name')
- Um alle Pakete eines bestimmten Ordners herunterzuladen.
import nltk
dwlr = nltk.downloader.Downloader()
# chunkers, corpora, grammars, help, misc,
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
if pkg.subdir== 'taggers':
dwlr.download(pkg.id)
- Alle Pakete außer Corpora Folder herunterladen.
import nltk
dwlr = nltk.downloader.Downloader()
for pkg in dwlr.corpora():
dwlr._status_cache[pkg.id] = 'installed'
dwlr.download('all')
NLTK-Installation mit Conda.
So installieren Sie NLTK mit Continuum's anaconda / conda .
Wenn Sie Anaconda verwenden, wird nltk höchstwahrscheinlich bereits im root heruntergeladen (obwohl Sie möglicherweise noch verschiedene Pakete manuell herunterladen müssen).
conda :
conda install nltk
nltk mit conda :
conda update nltk
Mit anaconda :
Wenn Sie mehrere Python-Umgebungen in Anaconda verwenden, aktivieren Sie zuerst die Umgebung, in der Sie nltk installieren möchten. Sie können die aktive Umgebung mit dem Befehl überprüfen
conda info --envs
Die Umgebung mit dem * -Zeichen vor dem Verzeichnispfad ist die aktive Umgebung. Um die aktive Umgebung zu ändern, verwenden Sie
activate <python_version>
for eg. activate python3.5
Überprüfen Sie nun die Liste der in dieser Umgebung installierten Pakete mit commnad
conda list
Wenn Sie "nltk" in der Liste nicht finden, verwenden Sie
conda install -c anaconda nltk=3.2.1
Weitere Informationen erhalten Sie unter https://anaconda.org/anaconda/nltk .
So installieren Sie Mini-Conda (auch conda : http://conda.pydata.org/docs/install/quick.html
anaconda installieren: https://docs.continuum.io/anaconda/install
Grundbegriffe
Korpus
Textkörper, Singular. Korpora ist der Plural davon. Beispiel: Eine Sammlung von medizinischen Zeitschriften.
Lexikon
Wörter und ihre Bedeutung. Beispiel: englisches Wörterbuch. Berücksichtigen Sie jedoch, dass verschiedene Felder unterschiedliche Lexika haben. Zum Beispiel: Für einen Finanzinvestor ist die erste Bedeutung für das Wort "Bull" eine Person, die den Markt zuversichtlich ist, verglichen mit dem englischen Lexikon, wo die erste Bedeutung für das Wort "Bull" ein Tier ist. Als solches gibt es ein spezielles Lexikon für Finanzinvestoren, Ärzte, Kinder, Mechaniker usw.
Zeichen
Jede "Entität", die Teil davon ist, wurde nach Regeln aufgeteilt. Zum Beispiel ist jedes Wort ein Token, wenn ein Satz in Wörter "tokenisiert" wird. Jeder Satz kann auch ein Token sein, wenn Sie die Sätze aus einem Absatz hervorgehoben haben.