nltk 튜토리얼
nltk 시작하기
수색…
비고
NLTK 는 인간 언어 데이터로 작업 할 수있는 Python 프로그램을 작성하기위한 최고의 플랫폼입니다. 분류, 토큰 화, 형태소 분석, 태깅, 구문 분석 및 의미 론적 추론을위한 텍스트 처리 라이브러리 모음과 함께 WordNet과 같은 50 개가 넘는 보충 자료 및 어휘 자원 에 대한 사용하기 쉬운 인터페이스, 산업 강도의 NLP 라이브러리를위한 래퍼, 적극적인 토론 포럼 .
그 책
Python을 이용한 Natural Language Processing은 언어 처리를 위한 프로그래밍에 대한 실질적인 소개를 제공합니다. NLTK의 제작자가 작성한이 책은 독자들에게 파이썬 프로그램을 작성하고, 코퍼와 함께 작업하고, 텍스트를 분류하고, 언어 구조를 분석하는 등의 기본 과정을 안내합니다. 이 책은 Python 3 및 NLTK 3 용으로 업데이트되고 있습니다. 원래 Python 2 버전은 http://nltk.org/book_1ed 에서 계속 사용할 수 있습니다.
버전
NLTK 버전 기록
번역 | 출시일 |
---|---|
3.2.4 ( 최신 ) | 2017-05-21 |
3.2 | 2016-03-03 |
3.1 | 2015-10-15 |
NLTK
NLTK (특히 nltk.tokenize
패키지)를 사용하여 문장 경계 탐지를 수행 할 수 있습니다.
import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))
산출:
text_output: ['This is a test.', "Let's try this sentence boundary detector."]
설치 또는 설정
NLTK는 Python
버전 2.7 또는 3.4 이상이 필요합니다.
이 지침은 python
버전 - 3.5를 고려합니다.
Mac / Unix :
- NLTK 설치 :
sudo pip install -U nltk
실행 - Numpy 설치 (옵션) :
sudo pip install -U numpy
실행 - 테스트 설치 :
python
을 실행 한 다음import nltk
를 입력import nltk
참고 : 이전 버전의 Python에서는 setuptools ( http://pypi.python.org/pypi/setuptools 참조 ) 를 설치하고 pip (sudo easy_install pip)를 설치해야 할 수도 있습니다.
- NLTK 설치 :
Windows :
이 지침은 여러분이 이미 여러분의 컴퓨터에 파이썬을 설치하지 않았다고 가정합니다.
32 비트 바이너리 설치
- Python 3.5 설치 : http://www.python.org/downloads/ (64 비트 버전 제외)
- Numpy 설치 (선택 사항) : http://sourceforge.net/projects/numpy/files/NumPy/ (pythnon3.5를 지정하는 버전)
- NLTK 설치 : http://pypi.python.org/pypi/nltk
- 설치 테스트 :
Start>Python35
를 입력 한 다음import nltk
을 입력import nltk
타사 소프트웨어 설치 :
다음을 참조하십시오 : https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software
참조 : http://www.nltk.org/install.html
NLTK의 다운로드 기능
pip
( pip install nltk
)에 NLTK를 설치할 수 있습니다. 설치가 완료되면 많은 구성 요소가 제공되지 않으므로 일부 NLTK 기능을 사용할 수 없습니다.
파이썬 셸에서 ntlk.download()
함수를 실행하여 UI를 사용하여 설치할 추가 패키지를 선택하십시오. 또는 python -m nltk.downloader [package_name]
사용할 수 있습니다.
- 사용 가능한 모든 패키지를 다운로드하십시오.
nltk.download('all')
- 특정 패키지를 다운로드하려면.
nltk.download('package-name')
- 특정 폴더의 모든 패키지를 다운로드하려면.
import nltk
dwlr = nltk.downloader.Downloader()
# chunkers, corpora, grammars, help, misc,
# models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages():
if pkg.subdir== 'taggers':
dwlr.download(pkg.id)
- Corpora Folder를 제외한 모든 패키지를 다운로드합니다.
import nltk
dwlr = nltk.downloader.Downloader()
for pkg in dwlr.corpora():
dwlr._status_cache[pkg.id] = 'installed'
dwlr.download('all')
Conda와 NLTK 설치.
Continuum의 anaconda
/ conda
NLTK를 설치하려면.
Anaconda를 사용하고 있다면 아마도 nltk가 이미 루트에 다운로드되었을 것입니다 (수동으로 여러 패키지를 다운로드해야 할 수도 있음).
conda
사용 :
conda install nltk
nltk
사용하여 conda
를 업그레이드하려면 다음을 수행 nltk
.
conda update nltk
anaconda
:
아나콘다에서 여러개의 파이썬 환경을 사용한다면 먼저 nltk을 설치하고자하는 환경을 활성화하십시오. 명령을 사용하여 활성 환경을 확인할 수 있습니다.
conda info --envs
디렉토리 경로 앞의 * 기호가있는 환경이 활성입니다. 활성 환경을 변경하려면
activate <python_version>
for eg. activate python3.5
이제 commnad를 사용하여이 환경에 설치된 패키지 목록을 확인하십시오.
conda list
목록에서 'nltk'을 찾지 못하면
conda install -c anaconda nltk=3.2.1
자세한 내용은 https://anaconda.org/anaconda/nltk를 참조 하십시오 .
미니 conda를 설치하려면 conda
: http://conda.pydata.org/docs/install/quick.html
anaconda
를 설치하려면 https://docs.continuum.io/anaconda/install
기본 용어
신체
텍스트 본문, 단수. Corpora는 이것의 복수형입니다. 예 : 의학 저널 모음.
사전
단어와 그 의미. 예 : 영어 사전. 그러나 다양한 필드가 서로 다른 어휘를 가질 것이라고 생각하십시오. 예 : 금융 투자자에게 "황소"라는 단어의 첫 번째 의미는 "황소"라는 단어의 첫 번째 의미가 동물 인 일반적인 영어 사전과 비교하여 시장에 대한 자신감을 가진 사람입니다. 따라서 재무 투자자, 의사, 아동, 기계 등을위한 특별 어휘집이 있습니다.
토큰
규칙에 따라 분할 된 모든 것의 일부인 각 "엔터티". 예를 들어, 문장이 단어로 "토큰 화 된"경우 각 단어는 토큰입니다. 각 문장은 단락에서 문장을 토큰 화 한 경우 토큰이 될 수도 있습니다.