Suche…


Bemerkungen

NLTK ist eine führende Plattform für die Erstellung von Python- Programmen zur Arbeit mit Daten in der menschlichen Sprache. Es bietet benutzerfreundliche Schnittstellen für über 50 korporative und lexikalische Ressourcen wie WordNet sowie eine Reihe von Textverarbeitungsbibliotheken für Klassifizierung, Tokenisierung, Stemming, Tagging, Parsen und semantisches Denken, Wrapper für NLP-Bibliotheken mit industrieller Stärke. und ein aktives Diskussionsforum .

Das Buch

Natural Language Processing mit Python bietet eine praktische Einführung in die Programmierung für die Sprachverarbeitung. Es wurde von den Entwicklern von NLTK geschrieben und führt den Leser durch die Grundlagen des Schreibens von Python-Programmen, der Arbeit mit Korpora, der Kategorisierung von Text, der Analyse der sprachlichen Struktur und mehr. Das Buch wird für Python 3 und NLTK 3 aktualisiert. (Die ursprüngliche Python 2-Version ist noch immer unter http://nltk.org/book_1ed verfügbar.)

Versionen

NLTK-Versionsverlauf

Ausführung Veröffentlichungsdatum
3.2.4 ( zuletzt ) 2017-05-21
3.2 2016-03-03
3.1 2015-10-15

Mit NLTK

Sie können NLTK (insbesondere das Paket nltk.tokenize ) verwenden, um die Erkennung von nltk.tokenize durchzuführen:

import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))

Ausgabe:

text_output: ['This is a test.', "Let's try this sentence boundary detector."]

Installation oder Setup

NLTK erfordert Python Versionen 2.7 oder 3.4 und höher .

Diese Anweisungen berücksichtigen die python Version 3.5


  • Mac / Unix:

    1. Installieren Sie NLTK: Führen Sie sudo pip install -U nltk
    2. Install Numpy (optional): Führen Sie sudo pip install -U numpy
    3. Testinstallation: Führen Sie python und geben Sie import nltk

    HINWEIS: Bei älteren Python-Versionen müssen möglicherweise Setuptools installiert werden (siehe http://pypi.python.org/pypi/setuptools) und pip (sudo easy_install pip) installiert werden.




Referenz: http://www.nltk.org/install.html

NLTK-Downloadfunktion

Sie können NLTK über pip pip install nltk ( pip install nltk ). Nach der Installation sind viele Komponenten nicht vorhanden und Sie können einige der Funktionen von NLTK nicht verwenden.

Führen Sie in Ihrer Python-Shell die Funktion ntlk.download() um auszuwählen, welche zusätzlichen Pakete Sie mithilfe der Benutzeroberfläche installieren möchten. Alternativ können Sie auch python -m nltk.downloader [package_name] .


  • Alle verfügbaren Pakete herunterladen.
nltk.download('all')

  • Um ein bestimmtes Paket herunterzuladen.
nltk.download('package-name')

  • Um alle Pakete eines bestimmten Ordners herunterzuladen.
import nltk

dwlr = nltk.downloader.Downloader()

# chunkers, corpora, grammars, help, misc, 
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
    if pkg.subdir== 'taggers':
        dwlr.download(pkg.id)

  • Alle Pakete außer Corpora Folder herunterladen.
import nltk

dwlr = nltk.downloader.Downloader()

for pkg in dwlr.corpora():
    dwlr._status_cache[pkg.id] = 'installed'

dwlr.download('all')

NLTK-Installation mit Conda.

So installieren Sie NLTK mit Continuum's anaconda / conda .

Wenn Sie Anaconda verwenden, wird nltk höchstwahrscheinlich bereits im root heruntergeladen (obwohl Sie möglicherweise noch verschiedene Pakete manuell herunterladen müssen).

conda :

conda install nltk 

nltk mit conda :

conda update nltk

Mit anaconda :

Wenn Sie mehrere Python-Umgebungen in Anaconda verwenden, aktivieren Sie zuerst die Umgebung, in der Sie nltk installieren möchten. Sie können die aktive Umgebung mit dem Befehl überprüfen

conda info --envs

Die Umgebung mit dem * -Zeichen vor dem Verzeichnispfad ist die aktive Umgebung. Um die aktive Umgebung zu ändern, verwenden Sie

activate <python_version>
for eg. activate python3.5

Überprüfen Sie nun die Liste der in dieser Umgebung installierten Pakete mit commnad

conda list

Wenn Sie "nltk" in der Liste nicht finden, verwenden Sie

conda install -c anaconda nltk=3.2.1

Weitere Informationen erhalten Sie unter https://anaconda.org/anaconda/nltk .


So installieren Sie Mini-Conda (auch conda : http://conda.pydata.org/docs/install/quick.html

anaconda installieren: https://docs.continuum.io/anaconda/install

Grundbegriffe

Korpus

Textkörper, Singular. Korpora ist der Plural davon. Beispiel: Eine Sammlung von medizinischen Zeitschriften.

Lexikon

Wörter und ihre Bedeutung. Beispiel: englisches Wörterbuch. Berücksichtigen Sie jedoch, dass verschiedene Felder unterschiedliche Lexika haben. Zum Beispiel: Für einen Finanzinvestor ist die erste Bedeutung für das Wort "Bull" eine Person, die den Markt zuversichtlich ist, verglichen mit dem englischen Lexikon, wo die erste Bedeutung für das Wort "Bull" ein Tier ist. Als solches gibt es ein spezielles Lexikon für Finanzinvestoren, Ärzte, Kinder, Mechaniker usw.

Zeichen

Jede "Entität", die Teil davon ist, wurde nach Regeln aufgeteilt. Zum Beispiel ist jedes Wort ein Token, wenn ein Satz in Wörter "tokenisiert" wird. Jeder Satz kann auch ein Token sein, wenn Sie die Sätze aus einem Absatz hervorgehoben haben.



Modified text is an extract of the original Stack Overflow Documentation
Lizenziert unter CC BY-SA 3.0
Nicht angeschlossen an Stack Overflow