Szukaj…


Uwagi

NLTK jest wiodącą platformą do budowy programów w języku Python do pracy z danymi w języku ludzkim. Zapewnia łatwe w użyciu interfejsy do ponad 50 korpusów i zasobów leksykalnych, takich jak WordNet, wraz z pakietem bibliotek przetwarzania tekstu do klasyfikacji, tokenizacji, odwzorowywania, tagowania, analizowania i rozumowania semantycznego, opakowań dla bibliotek NLP o dużej mocy przemysłowej, i aktywne forum dyskusyjne .

Książka

Przetwarzanie języka naturalnego w języku Python stanowi praktyczne wprowadzenie do programowania przetwarzania języka. Napisany przez twórców NLTK, prowadzi czytelnika przez podstawy pisania programów w języku Python, pracy z korpusami, kategoryzowania tekstu, analizy struktury językowej i nie tylko. Książka jest aktualizowana do Python 3 i NLTK 3. (Oryginalna wersja Python 2 jest nadal dostępna na stronie http://nltk.org/book_1ed ).

Wersje

Historia wersji NLTK

Wersja Data wydania
3.2.4 ( najnowsze ) 21.05.2017
3.2 2016-03-03
3.1 2015-10-15

Z NLTK

Możesz użyć NLTK (szczególnie pakietu nltk.tokenize ), aby wykonać wykrywanie granicy zdania:

import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))

Wynik:

text_output: ['This is a test.', "Let's try this sentence boundary detector."]

Instalacja lub konfiguracja

NLTK wymaga wersji Python wersji 2.7 lub 3.4+ .

Te instrukcje python wersji python - 3.5


  • Mac / Unix:

    1. Zainstaluj NLTK: uruchom sudo pip install -U nltk
    2. Zainstaluj Numpy (opcjonalnie): uruchom sudo pip install -U numpy
    3. Instalacja testowa: uruchom python a następnie wpisz import nltk

    UWAGA: W przypadku starszych wersji Pythona może być konieczna instalacja setuptools (patrz http://pypi.python.org/pypi/setuptools) i instalacja pip (sudo easy_install pip).




Odniesienie: http://www.nltk.org/install.html

Funkcja pobierania NLTK

Możesz zainstalować NLTK przez pip ( pip install nltk ). Po jego zainstalowaniu wiele składników nie będzie obecnych i nie będziesz mógł korzystać z niektórych funkcji NLTK.

Z poziomu powłoki Pythona uruchom funkcję ntlk.download() aby wybrać dodatkowe pakiety, które chcesz zainstalować za pomocą interfejsu użytkownika. Alternatywnie możesz użyć python -m nltk.downloader [package_name] .


  • Aby pobrać wszystkie dostępne pakiety.
nltk.download('all')

  • Aby pobrać konkretny pakiet.
nltk.download('package-name')

  • Aby pobrać wszystkie pakiety określonego folderu.
import nltk

dwlr = nltk.downloader.Downloader()

# chunkers, corpora, grammars, help, misc, 
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
    if pkg.subdir== 'taggers':
        dwlr.download(pkg.id)

  • Aby pobrać wszystkie pakiety oprócz Corpora Folder.
import nltk

dwlr = nltk.downloader.Downloader()

for pkg in dwlr.corpora():
    dwlr._status_cache[pkg.id] = 'installed'

dwlr.download('all')

Instalacja NLTK z Conda.

Aby zainstalować NLTK z anaconda / conda .

Jeśli używasz Anacondy, najprawdopodobniej nltk zostałby już pobrany w katalogu głównym (choć może być konieczne ręczne pobranie różnych pakietów).

Za pomocą conda :

conda install nltk 

Aby zaktualizować nltk przy użyciu conda :

conda update nltk

Z anaconda :

Jeśli używasz wielu środowisk python w anaconda, najpierw aktywuj środowisko, w którym chcesz zainstalować nltk. Możesz sprawdzić aktywne środowisko za pomocą polecenia

conda info --envs

Środowisko ze znakiem * przed ścieżką katalogu jest aktywne. Aby zmienić aktywne środowisko użytkowania

activate <python_version>
for eg. activate python3.5

Teraz sprawdź listę pakietów zainstalowanych w tym środowisku za pomocą commnad

conda list

Jeśli nie znajdziesz na liście „nltk”, użyj

conda install -c anaconda nltk=3.2.1

Więcej informacji można znaleźć na stronie https://anaconda.org/anaconda/nltk .


Aby zainstalować mini-conda aka conda : http://conda.pydata.org/docs/install/quick.html

Aby zainstalować anaconda : https://docs.continuum.io/anaconda/install

Podstawowe warunki

Ciało

Treść pojedyncza. Corpora jest w liczbie mnogiej. Przykład: zbiór czasopism medycznych.

Leksykon

Słowa i ich znaczenie. Przykład: słownik angielski. Weź jednak pod uwagę, że różne pola będą miały różne leksykony. Na przykład: dla inwestora finansowego pierwsze znaczenie słowa „Bull” to ktoś, kto jest pewny rynku, w porównaniu ze zwykłym angielskim leksykonem, gdzie pierwsze znaczenie słowa „Bull” to zwierzę. Jako taki istnieje specjalny leksykon dla inwestorów finansowych, lekarzy, dzieci, mechaników i tak dalej.

Znak

Każdy „byt”, który jest częścią wszystkiego, co zostało podzielone na podstawie zasad. Na przykład każde słowo jest tokenem, gdy zdanie jest „tokenizowane” na słowa. Każde zdanie może być również tokenem, jeśli tokenizujesz zdania z akapitu.



Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow