nltk Samouczek
Rozpoczęcie pracy z nltk
Szukaj…
Uwagi
NLTK jest wiodącą platformą do budowy programów w języku Python do pracy z danymi w języku ludzkim. Zapewnia łatwe w użyciu interfejsy do ponad 50 korpusów i zasobów leksykalnych, takich jak WordNet, wraz z pakietem bibliotek przetwarzania tekstu do klasyfikacji, tokenizacji, odwzorowywania, tagowania, analizowania i rozumowania semantycznego, opakowań dla bibliotek NLP o dużej mocy przemysłowej, i aktywne forum dyskusyjne .
Książka
Przetwarzanie języka naturalnego w języku Python stanowi praktyczne wprowadzenie do programowania przetwarzania języka. Napisany przez twórców NLTK, prowadzi czytelnika przez podstawy pisania programów w języku Python, pracy z korpusami, kategoryzowania tekstu, analizy struktury językowej i nie tylko. Książka jest aktualizowana do Python 3 i NLTK 3. (Oryginalna wersja Python 2 jest nadal dostępna na stronie http://nltk.org/book_1ed ).
Wersje
Historia wersji NLTK
| Wersja | Data wydania |
|---|---|
| 3.2.4 ( najnowsze ) | 21.05.2017 |
| 3.2 | 2016-03-03 |
| 3.1 | 2015-10-15 |
Z NLTK
Możesz użyć NLTK (szczególnie pakietu nltk.tokenize ), aby wykonać wykrywanie granicy zdania:
import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))
Wynik:
text_output: ['This is a test.', "Let's try this sentence boundary detector."]
Instalacja lub konfiguracja
NLTK wymaga wersji Python wersji 2.7 lub 3.4+ .
Te instrukcje python wersji python - 3.5
Mac / Unix:
- Zainstaluj NLTK: uruchom
sudo pip install -U nltk - Zainstaluj Numpy (opcjonalnie): uruchom
sudo pip install -U numpy - Instalacja testowa: uruchom
pythona następnie wpiszimport nltk
UWAGA: W przypadku starszych wersji Pythona może być konieczna instalacja setuptools (patrz http://pypi.python.org/pypi/setuptools) i instalacja pip (sudo easy_install pip).
- Zainstaluj NLTK: uruchom
Windows:
W tych instrukcjach założono, że na komputerze nie jest jeszcze zainstalowany Python.
32-bitowa instalacja binarna
- Zainstaluj Python 3.5: http://www.python.org/downloads/ (unikaj wersji 64-bitowych)
- Zainstaluj Numpy (opcjonalnie): http://sourceforge.net/projects/numpy/files/NumPy/ (wersja, która określa pythnon3.5)
- Zainstaluj NLTK: http://pypi.python.org/pypi/nltk
- Instalacja testowa:
Start>Python35, a następnie wpiszimport nltk
Instalowanie oprogramowania innych firm:
Zobacz: https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software
Odniesienie: http://www.nltk.org/install.html
Funkcja pobierania NLTK
Możesz zainstalować NLTK przez pip ( pip install nltk ). Po jego zainstalowaniu wiele składników nie będzie obecnych i nie będziesz mógł korzystać z niektórych funkcji NLTK.
Z poziomu powłoki Pythona uruchom funkcję ntlk.download() aby wybrać dodatkowe pakiety, które chcesz zainstalować za pomocą interfejsu użytkownika. Alternatywnie możesz użyć python -m nltk.downloader [package_name] .
- Aby pobrać wszystkie dostępne pakiety.
nltk.download('all')
- Aby pobrać konkretny pakiet.
nltk.download('package-name')
- Aby pobrać wszystkie pakiety określonego folderu.
import nltk
dwlr = nltk.downloader.Downloader()
# chunkers, corpora, grammars, help, misc,
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
if pkg.subdir== 'taggers':
dwlr.download(pkg.id)
- Aby pobrać wszystkie pakiety oprócz Corpora Folder.
import nltk
dwlr = nltk.downloader.Downloader()
for pkg in dwlr.corpora():
dwlr._status_cache[pkg.id] = 'installed'
dwlr.download('all')
Instalacja NLTK z Conda.
Aby zainstalować NLTK z anaconda / conda .
Jeśli używasz Anacondy, najprawdopodobniej nltk zostałby już pobrany w katalogu głównym (choć może być konieczne ręczne pobranie różnych pakietów).
Za pomocą conda :
conda install nltk
Aby zaktualizować nltk przy użyciu conda :
conda update nltk
Z anaconda :
Jeśli używasz wielu środowisk python w anaconda, najpierw aktywuj środowisko, w którym chcesz zainstalować nltk. Możesz sprawdzić aktywne środowisko za pomocą polecenia
conda info --envs
Środowisko ze znakiem * przed ścieżką katalogu jest aktywne. Aby zmienić aktywne środowisko użytkowania
activate <python_version>
for eg. activate python3.5
Teraz sprawdź listę pakietów zainstalowanych w tym środowisku za pomocą commnad
conda list
Jeśli nie znajdziesz na liście „nltk”, użyj
conda install -c anaconda nltk=3.2.1
Więcej informacji można znaleźć na stronie https://anaconda.org/anaconda/nltk .
Aby zainstalować mini-conda aka conda : http://conda.pydata.org/docs/install/quick.html
Aby zainstalować anaconda : https://docs.continuum.io/anaconda/install
Podstawowe warunki
Ciało
Treść pojedyncza. Corpora jest w liczbie mnogiej. Przykład: zbiór czasopism medycznych.
Leksykon
Słowa i ich znaczenie. Przykład: słownik angielski. Weź jednak pod uwagę, że różne pola będą miały różne leksykony. Na przykład: dla inwestora finansowego pierwsze znaczenie słowa „Bull” to ktoś, kto jest pewny rynku, w porównaniu ze zwykłym angielskim leksykonem, gdzie pierwsze znaczenie słowa „Bull” to zwierzę. Jako taki istnieje specjalny leksykon dla inwestorów finansowych, lekarzy, dzieci, mechaników i tak dalej.
Znak
Każdy „byt”, który jest częścią wszystkiego, co zostało podzielone na podstawie zasad. Na przykład każde słowo jest tokenem, gdy zdanie jest „tokenizowane” na słowa. Każde zdanie może być również tokenem, jeśli tokenizujesz zdania z akapitu.