サーチ…


備考

NLTKは、人間の言語データを扱う Pythonプログラムを構築するための最先端のプラットフォームです。それは、分類、トークン化、ステミング、タグ付け、解析、意味論的推論のための一連のテキスト処理ライブラリ、産業強度のNLPライブラリのラッパー、WordNetのような50以上のコーパスおよびレキシカルリソースへの使いやすいインターフェイスを提供します。活発なディスカッションフォーラム

Pythonによる自然言語処理は、言語処理のためのプログラミングを実際に紹介します。 NLTKの作成者が作成したもので、読者はPythonプログラムの作成、コーパスの操作、テキストの分類、言語構造の分析などの基本を学びます。この本はPython 3とNLTK 3のために更新されています(元のPython 2のバージョンはhttp://nltk.org/book_1edでも入手可能です)。

バージョン

NLTKのバージョン履歴

バージョン 発売日
3.2.4( 最新 2017-05-21
3.2 2016-03-03
3.1 2015-10-15

NLTK

NLTK(特に、 nltk.tokenizeパッケージ)を使用して文境界検出を実行することができます。

import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))

出力:

text_output: ['This is a test.', "Let's try this sentence boundary detector."]

インストールまたはセットアップ

NLTKは必要とPythonバージョン2.7または3.4+を

これらの命令は、 pythonバージョン3.5


  • Mac / Unix:

    1. NLTKをインストールする: sudo pip install -U nltk実行sudo pip install -U nltk
    2. Numpyをインストールする(オプション): sudo pip install -U numpy実行sudo pip install -U numpy
    3. テストインストール: pythonを実行し、 import nltk入力します。

    注:Pythonの古いバージョンでは、setuptools( http://pypi.python.org/pypi/setuptoolsを参照をインストールし、pip(sudo easy_install pip)をインストールする必要があります。


  • Windows:

    これらの手順では、マシンにPythonがインストールされていないことを前提としています。

    32ビットバイナリインストール

    1. Python 3.5をインストールする: http : //www.python.org/downloads/ (64ビット版を避ける)
    2. Numpyをインストールする(オプション): http ://sourceforge.net/projects/numpy/files/NumPy/(pythnon3.5を指定するバージョン)
    3. NLTKをインストールする: http ://pypi.python.org/pypi/nltk
    4. インストールをテストします: Start>Python35と入力し、 import nltk


リファレンス: http : //www.nltk.org/install.html

NLTKのダウンロード機能

あなたはpippip install nltk )の上にNLTKをインストールすることができます。インストール後、多くのコンポーネントは存在せず、NLTKの機能のいくつかを使用することはできません。

Pythonシェルから、 ntlk.download()関数を実行して、UIを使用してインストールする追加パッケージを選択します。あるいは、 python -m nltk.downloader [package_name]使用することもできます。


  • 利用可能なすべてのパッケージをダウンロードする。
nltk.download('all')

  • 特定のパッケージをダウンロードする。
nltk.download('package-name')

  • 特定のフォルダのすべてのパッケージをダウンロードする。
import nltk

dwlr = nltk.downloader.Downloader()

# chunkers, corpora, grammars, help, misc, 
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
    if pkg.subdir== 'taggers':
        dwlr.download(pkg.id)

  • Corpora Folder以外のすべてのパッケージをダウンロードする。
import nltk

dwlr = nltk.downloader.Downloader()

for pkg in dwlr.corpora():
    dwlr._status_cache[pkg.id] = 'installed'

dwlr.download('all')

CondaとのNLTKインストール。

Continuumのanaconda / condaをインストールするには

Anacondaを使用している場合は、おそらくnltkがすでにルートにダウンロードされている可能性があります(ただし、手動でさまざまなパッケージをダウンロードする必要があります)。

condaconda

conda install nltk 

nltkを使用してcondaをアップグレードするには:

conda update nltk

anaconda

anacondaで複数のpython環境を使用している場合は、最初にnltkをインストールする環境を有効にします。コマンドを使用してアクティブな環境を確認することができます

conda info --envs

ディレクトリパスの前にある*記号の付いた環境がアクティブな環境です。アクティブな環境を変更するには

activate <python_version>
for eg. activate python3.5

この環境にインストールされているパッケージのリストを、commnadを使って確認してください

conda list

リスト内で「nltk」が見つからない場合は、

conda install -c anaconda nltk=3.2.1

詳細については、 https://anaconda.org/anaconda/nltkを参照してください


mini-conda aka condaをインストールするには: http : conda

anacondaをインストールするには: https : //docs.continuum.io/anaconda/install

基本条項

コーパス

テキストの本文、単数形。コーパスはこれの複数形です。例:医学雑誌のコレクション。

レキシコン

言葉とその意味例:英語の辞書。しかし、さまざまなフィールドには異なる辞書があると考えてください。たとえば、金融投資家にとって、「ブル」という単語の最初の意味は、「ブル」という単語の最初の意味が動物である一般的な英語辞典と比較して、市場について自信を持っている人です。このように、金融投資家、医者、子供、メカニックなどのための特別なレキシコンがあります。

トークン

ルールに基づいて分割されたものの一部である各「エンティティ」。例として、各単語は、文が単語に「トークン化」されたときのトークンです。段落から文章をトークン化した場合は、各文章をトークンにすることもできます。



Modified text is an extract of the original Stack Overflow Documentation
ライセンスを受けた CC BY-SA 3.0
所属していない Stack Overflow