Поиск…


замечания

NLTK - это ведущая платформа для создания программ Python для работы с данными на человеческом языке. Он предоставляет простые в использовании интерфейсы для более чем 50 корпораций и лексических ресурсов, таких как WordNet, а также набор библиотек обработки текста для классификации, токенизации, генерации, тегирования, разбора и семантических рассуждений, оберток для библиотек НЛП для промышленной прочности, и активный форум .

Книга

Обработка естественного языка с помощью Python обеспечивает практическое введение в программирование для обработки языка. Написанный создателями NLTK, он направляет читателя через основы написания программ Python, работы с корпусами, категоризации текста, анализа лингвистической структуры и т. Д. Книга обновляется для Python 3 и NLTK 3. (Оригинальная версия Python 2 по-прежнему доступна по адресу http://nltk.org/book_1ed .)

Версии

История версий NLTK

Версия Дата выхода
3.2.4 ( последний ) 2017-05-21
3,2 2016-03-03
3,1 2015-10-15

С NLTK

Вы можете использовать NLTK (особенно, пакет nltk.tokenize ) для выполнения определения границы предложения:

import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))

Выход:

text_output: ['This is a test.', "Let's try this sentence boundary detector."]

Установка или настройка

NLTK требует Python версий 2.7 или 3.4+.

В этих инструкциях рассматривается версия python - 3.5


  • Mac / Unix:

    1. Установка NLTK: запуск sudo pip install -U nltk
    2. Установите Numpy (необязательно): запустите sudo pip install -U numpy
    3. Тестовая установка: запустите python затем введите import nltk

    ПРИМЕЧАНИЕ. Для более старых версий Python может потребоваться установить setuptools (см. Http://pypi.python.org/pypi/setuptools) и установить pip (sudo easy_install pip).


  • Windows:

    В этих инструкциях предполагается, что на вашем компьютере не установлен Python.

    32-битная двоичная установка

    1. Установите Python 3.5: http://www.python.org/downloads/ (избегайте 64-разрядных версий)
    2. Установите Numpy (необязательно): http://sourceforge.net/projects/numpy/files/NumPy/ (версия, которая указывает pythnon3.5)
    3. Установка NLTK: http://pypi.python.org/pypi/nltk
    4. Тестирование: Start>Python35 , затем введите import nltk


Ссылка: http://www.nltk.org/install.html

Функция загрузки NLTK

Вы можете установить NLTK поверх pip ( pip install nltk ). После его установки многие компоненты не будут присутствовать, и вы не сможете использовать некоторые функции NLTK.

Из оболочки Python запустите функцию ntlk.download() чтобы выбрать, какие дополнительные пакеты вы хотите установить с помощью пользовательского интерфейса. Кроме того, вы можете использовать python -m nltk.downloader [package_name] .


  • Чтобы загрузить все доступные пакеты.
nltk.download('all')

  • Загрузка определенного пакета.
nltk.download('package-name')

  • Чтобы загрузить все пакеты определенной папки.
import nltk

dwlr = nltk.downloader.Downloader()

# chunkers, corpora, grammars, help, misc, 
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
    if pkg.subdir== 'taggers':
        dwlr.download(pkg.id)

  • Чтобы загрузить все пакеты, кроме Corpora Folder.
import nltk

dwlr = nltk.downloader.Downloader()

for pkg in dwlr.corpora():
    dwlr._status_cache[pkg.id] = 'installed'

dwlr.download('all')

Установка NLTK с помощью Conda.

Чтобы установить NLTK с помощью anaconda / conda Continuum.

Если вы используете Anaconda, скорее всего, nltk уже будет загружен в корневой каталог (хотя вам все равно придется загружать различные пакеты вручную).

Использование conda :

conda install nltk 

Чтобы обновить nltk с помощью conda :

conda update nltk

С anaconda :

Если вы используете несколько python envriroments в anaconda, сначала активируйте среду, в которую вы хотите установить nltk. Вы можете проверить активную среду, используя команду

conda info --envs

Окружение с знаком * перед каталогом является активным. Чтобы изменить использование активной среды

activate <python_version>
for eg. activate python3.5

Теперь проверьте список пакетов, установленных в этой среде, используя commnad

conda list

Если вы не найдете «nltk» в списке, используйте

conda install -c anaconda nltk=3.2.1

Для получения дополнительной информации вы можете обратиться к https://anaconda.org/anaconda/nltk .


Чтобы установить mini-conda aka conda : http://conda.pydata.org/docs/install/quick.html

Чтобы установить anaconda : https://docs.continuum.io/anaconda/install

Основные термины

тело

Тело текста, единственное. Corpora - это множественное число. Пример: коллекция медицинских журналов.

Словарный запас

Слова и их значения. Пример: английский словарь. Однако следует учитывать, что различные поля будут иметь разные лексиконы. Например: Для финансового инвестора первое значение для слова «Бык» - это тот, кто уверен в рынке, по сравнению с общим английским лексиконом, где первое значение для слова «Бык» - это животное. Таким образом, существует специальный лексикон для финансовых инвесторов, врачей, детей, механиков и т. Д.

знак

Каждый «объект», который является частью того, что было разделено на основе правил. Например, каждое слово является токеном, когда предложение «символизировано» в слова. Каждое предложение также может быть токеном, если вы подписали предложения из абзаца.



Modified text is an extract of the original Stack Overflow Documentation
Лицензировано согласно CC BY-SA 3.0
Не связан с Stack Overflow