pandas 튜토리얼
팬더 시작하기
수색…
비고
Pandas는 "관계형"또는 "레이블이있는"데이터 작업을 쉽고 직관적으로 처리 할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지입니다. Python에서 실질적인 실제 데이터 분석을 수행하기위한 기본 고수준 빌딩 블록을 목표로합니다.
공식 팬더 문서 는 여기에서 찾을 수 있습니다 .
버전
판다
번역 | 출시일 |
---|---|
0.19.1 | 2016-11-03 |
0.19.0 | 2016-10-02 |
0.18.1 | 2016-05-03 |
0.18.0 | 2016-03-13 |
0.17.1 | 2015-11-21 |
0.17.0 | 2015-10-09 |
0.16.2 | 2015-06-12 |
0.16.1 | 2015-05-11 |
0.16.0 | 2015-03-22 |
0.15.2 | 2014-12-12 |
0.15.1 | 2014-11-09 |
0.15.0 | 2014-10-18 |
0.14.1 | 2014-07-11 |
0.14.0 | 2014-05-31 |
0.13.1 | 2014-02-03 |
0.13.0 | 2014-01-03 |
0.12.0 | 2013-07-23 |
설치 또는 설정
판다 설치 또는 설치에 대한 자세한 지침 은 공식 문서에서 확인할 수 있습니다.
아나콘다와 팬더 설치하기
판다와 NumPy 및 SciPy 스택의 나머지 부분을 설치하는 것은 경험이 거의없는 사용자에게는 조금 어려울 수 있습니다.
pandas뿐만 아니라 Python과 SciPy 스택 (IPython, NumPy, Matplotlib 등)을 구성하는 가장 인기있는 패키지를 설치하는 가장 간단한 방법은 Anaconda , 크로스 플랫폼 (Linux, Mac OS X, Windows) 데이터 분석 및 과학 컴퓨팅을위한 Python 배포.
간단한 설치 프로그램을 실행 한 후에는 사용자가 팬더와 나머지 SciPy 스택에 액세스 할 수 있으며 소프트웨어를 컴파일 할 때까지 기다리지 않고도 다른 것을 설치할 필요가 없습니다.
아나콘다 설치 지침은 여기에서 찾을 수 있습니다 .
아나콘다 배포판의 일부로 제공되는 패키지의 전체 목록은 여기에서 찾을 수 있습니다 .
Anaconda를 설치하는 또 다른 이점은 설치하는 데 관리자 권한이 필요하지 않으며 사용자의 홈 디렉토리에 설치되므로 나중에 Anaconda를 삭제하는 것이 쉽습니다 (해당 폴더 삭제).
Miniconda로 판다 설치하기
이전 섹션에서는 팬더를 아나콘다 배포판의 일부로 설치하는 방법에 대해 설명했습니다. 그러나이 방법은 100 개가 넘는 패키지를 설치하고 몇 백 메가 바이트 크기의 설치 프로그램을 다운로드하는 것을 의미합니다.
어떤 패키지를 더 잘 제어하고 인터넷 대역폭이 제한적 이라면 Miniconda로 판다를 설치하는 것이 더 나은 해결책 일 수 있습니다.
Conda 는 Anaconda 배포판이 구축 된 패키지 관리자입니다. 이것은 크로스 플랫폼 및 언어에 구애받지 않는 패키지 관리자입니다 (pip 및 virtualenv 조합과 유사한 역할을 수행 할 수 있음).
Miniconda은 당신이 최소한의 아파트형 파이썬 설치를 만든 다음 사용할 수 있습니다 CONDA의 추가 패키지를 설치하는 명령을 사용합니다.
먼저 Conda를 설치하고 다운로드하여 실행하면 Miniconda가이를 수행합니다. 설치 프로그램 은 여기에서 찾을 수 있습니다 .
다음 단계는 새로운 conda 환경을 생성하는 것입니다 (virtualenv와 유사하지만 설치할 Python 버전을 정확하게 지정할 수도 있습니다). 터미널 창에서 다음 명령을 실행하십시오.
conda create -n name_of_my_env python
이렇게하면 파이썬 만 설치된 최소한의 환경이 생성됩니다. 이 환경에 자신을 넣으려면 다음을 실행하십시오.
source activate name_of_my_env
Windows에서 명령은 다음과 같습니다.
activate name_of_my_env
필요한 마지막 단계는 팬더를 설치하는 것입니다. 이 작업은 다음 명령을 사용하여 수행 할 수 있습니다.
conda install pandas
특정 팬더 버전을 설치하려면,
conda install pandas=0.13.1
다른 패키지를 설치하려면, 예를 들어 IPython을 설치하십시오 :
conda install ipython
아나콘다 전체 배포판을 설치하려면,
conda install anaconda
pip 할 수 있지만 conda가없는 패키지가 필요한 경우 pip를 설치하고 pip를 사용하여 다음 패키지를 설치하십시오.
conda install pip
pip install django
일반적으로 패킷 관리자 중 한 명과 함께 팬더를 설치합니다.
pip 예제 :
pip install pandas
NumPy를 포함하여 많은 의존성을 설치해야 할 필요가있을 것입니다. 컴파일러가 필요한 코드를 컴파일해야하고, 완료하는 데 몇 분이 걸릴 수 있습니다.
아나콘다를 통해 설치
먼저 Continuum 사이트에서 아나콘다 를 다운로드 하십시오. 그래픽 설치 프로그램 (Windows / OSX) 또는 쉘 스크립트 (OSX / Linux) 실행 중 하나를 사용하십시오. 여기에는 판다가 포함됩니다!
아나콘다에 편리하게 번들 된 150 개의 패키지를 원하지 않는다면 미니콘다를 설치할 수 있습니다. 그래픽 설치 프로그램 (Windows) 또는 쉘 스크립트 (OSX / Linux).
miniconda에 판다를 설치하려면 :
conda install pandas
anaconda 또는 miniconda에서 pandas를 최신 버전으로 업데이트하려면 다음을 사용하십시오.
conda update pandas
안녕하세요 세계
Pandas가 설치되면 임의로 분산 된 값의 데이터 세트를 만들고 히스토그램을 그려서 올바르게 작동하는지 확인할 수 있습니다.
import pandas as pd # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(0)
values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()
데이터 통계 (평균, 표준 편차 등) 중 일부를 확인하십시오.
s.describe()
# Output: count 100.000000
# mean 0.059808
# std 1.012960
# min -2.552990
# 25% -0.643857
# 50% 0.094096
# 75% 0.737077
# max 2.269755
# dtype: float64
기술 통계
숫자 열의 설명 통계 (평균, 표준 편차, 관측 수, 최소, 최대 및 4 분위수)는 기술 통계의 판다 데이터 프레임을 반환하는 .describe()
메서드를 사용하여 계산할 수 있습니다.
In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1],
'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17],
'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})
In [2]: df
Out[2]:
A B C
0 1 12 a
1 2 14 a
2 1 11 b
3 4 16 a
4 3 18 b
5 5 18 c
6 2 22 b
7 3 13 a
8 4 21 b
9 1 17 a
In [3]: df.describe()
Out[3]:
A B
count 10.000000 10.000000
mean 2.600000 16.200000
std 1.429841 3.705851
min 1.000000 11.000000
25% 1.250000 13.250000
50% 2.500000 16.500000
75% 3.750000 18.000000
max 5.000000 22.000000
C
는 숫자 열이 아니므로 출력에서 제외됩니다.
In [4]: df['C'].describe()
Out[4]:
count 10
unique 3
freq 5
Name: C, dtype: object
이 경우이 방법은 관측 수, 고유 요소 수, 모드 및 모드 빈도에 따라 범주 데이터를 요약합니다.