nltk учебник
Начало работы с nltk
Поиск…
замечания
NLTK - это ведущая платформа для создания программ Python для работы с данными на человеческом языке. Он предоставляет простые в использовании интерфейсы для более чем 50 корпораций и лексических ресурсов, таких как WordNet, а также набор библиотек обработки текста для классификации, токенизации, генерации, тегирования, разбора и семантических рассуждений, оберток для библиотек НЛП для промышленной прочности, и активный форум .
Книга
Обработка естественного языка с помощью Python обеспечивает практическое введение в программирование для обработки языка. Написанный создателями NLTK, он направляет читателя через основы написания программ Python, работы с корпусами, категоризации текста, анализа лингвистической структуры и т. Д. Книга обновляется для Python 3 и NLTK 3. (Оригинальная версия Python 2 по-прежнему доступна по адресу http://nltk.org/book_1ed .)
Версии
История версий NLTK
Версия | Дата выхода |
---|---|
3.2.4 ( последний ) | 2017-05-21 |
3,2 | 2016-03-03 |
3,1 | 2015-10-15 |
С NLTK
Вы можете использовать NLTK (особенно, пакет nltk.tokenize
) для выполнения определения границы предложения:
import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))
Выход:
text_output: ['This is a test.', "Let's try this sentence boundary detector."]
Установка или настройка
NLTK требует Python
версий 2.7 или 3.4+.
В этих инструкциях рассматривается версия python
- 3.5
Mac / Unix:
- Установка NLTK: запуск
sudo pip install -U nltk
- Установите Numpy (необязательно): запустите
sudo pip install -U numpy
- Тестовая установка: запустите
python
затем введитеimport nltk
ПРИМЕЧАНИЕ. Для более старых версий Python может потребоваться установить setuptools (см. Http://pypi.python.org/pypi/setuptools) и установить pip (sudo easy_install pip).
- Установка NLTK: запуск
Windows:
В этих инструкциях предполагается, что на вашем компьютере не установлен Python.
32-битная двоичная установка
- Установите Python 3.5: http://www.python.org/downloads/ (избегайте 64-разрядных версий)
- Установите Numpy (необязательно): http://sourceforge.net/projects/numpy/files/NumPy/ (версия, которая указывает pythnon3.5)
- Установка NLTK: http://pypi.python.org/pypi/nltk
- Тестирование:
Start>Python35
, затем введитеimport nltk
Установка стороннего программного обеспечения:
См.: Https://github.com/nltk/nltk/wiki/Интеграция-Third-Party-Software
Ссылка: http://www.nltk.org/install.html
Функция загрузки NLTK
Вы можете установить NLTK поверх pip
( pip install nltk
). После его установки многие компоненты не будут присутствовать, и вы не сможете использовать некоторые функции NLTK.
Из оболочки Python запустите функцию ntlk.download()
чтобы выбрать, какие дополнительные пакеты вы хотите установить с помощью пользовательского интерфейса. Кроме того, вы можете использовать python -m nltk.downloader [package_name]
.
- Чтобы загрузить все доступные пакеты.
nltk.download('all')
- Загрузка определенного пакета.
nltk.download('package-name')
- Чтобы загрузить все пакеты определенной папки.
import nltk
dwlr = nltk.downloader.Downloader()
# chunkers, corpora, grammars, help, misc,
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
if pkg.subdir== 'taggers':
dwlr.download(pkg.id)
- Чтобы загрузить все пакеты, кроме Corpora Folder.
import nltk
dwlr = nltk.downloader.Downloader()
for pkg in dwlr.corpora():
dwlr._status_cache[pkg.id] = 'installed'
dwlr.download('all')
Установка NLTK с помощью Conda.
Чтобы установить NLTK с помощью anaconda
/ conda
Continuum.
Если вы используете Anaconda, скорее всего, nltk уже будет загружен в корневой каталог (хотя вам все равно придется загружать различные пакеты вручную).
Использование conda
:
conda install nltk
Чтобы обновить nltk
с помощью conda
:
conda update nltk
С anaconda
:
Если вы используете несколько python envriroments в anaconda, сначала активируйте среду, в которую вы хотите установить nltk. Вы можете проверить активную среду, используя команду
conda info --envs
Окружение с знаком * перед каталогом является активным. Чтобы изменить использование активной среды
activate <python_version>
for eg. activate python3.5
Теперь проверьте список пакетов, установленных в этой среде, используя commnad
conda list
Если вы не найдете «nltk» в списке, используйте
conda install -c anaconda nltk=3.2.1
Для получения дополнительной информации вы можете обратиться к https://anaconda.org/anaconda/nltk .
Чтобы установить mini-conda aka conda
: http://conda.pydata.org/docs/install/quick.html
Чтобы установить anaconda
: https://docs.continuum.io/anaconda/install
Основные термины
тело
Тело текста, единственное. Corpora - это множественное число. Пример: коллекция медицинских журналов.
Словарный запас
Слова и их значения. Пример: английский словарь. Однако следует учитывать, что различные поля будут иметь разные лексиконы. Например: Для финансового инвестора первое значение для слова «Бык» - это тот, кто уверен в рынке, по сравнению с общим английским лексиконом, где первое значение для слова «Бык» - это животное. Таким образом, существует специальный лексикон для финансовых инвесторов, врачей, детей, механиков и т. Д.
знак
Каждый «объект», который является частью того, что было разделено на основе правил. Например, каждое слово является токеном, когда предложение «символизировано» в слова. Каждое предложение также может быть токеном, если вы подписали предложения из абзаца.