pandas チュートリアル
パンダを始める
サーチ…
備考
Pandasは、「リレーショナル」や「ラベル付け」されたデータを簡単かつ直感的に扱えるように設計された、高速、柔軟性、表現力豊かなデータ構造を提供するPythonパッケージです。 Pythonで実用的で実世界のデータ分析を行うための基本的な高水準ビルディングブロックを目指しています。
公式のパンダのドキュメントはここにあります 。
バージョン
パンダ
バージョン | 発売日 |
---|---|
0.19.1 | 2016年11月03日 |
0.19.0 | 2016-10-02 |
0.18.1 | 2016-05-03 |
0.18.0 | 2016-03-13 |
0.17.1 | 2015-11-21 |
0.17.0 | 2015-10-09 |
0.16.2 | 2015-06-12 |
0.16.1 | 2015-05-11 |
0.16.0 | 2015-03-22 |
0.15.2 | 2014-12-12 |
0.15.1 | 2014-11-09 |
0.15.0 | 2014-10-18 |
0.14.1 | 2014-07-11 |
0.14.0 | 2014-05-31 |
0.13.1 | 2014-02-03 |
0.13.0 | 2014-01-03 |
0.12.0 | 2013-07-23 |
インストールまたはセットアップ
パンダをセットアップまたはインストールする詳しい手順は、公式文書に記載されています 。
Anacondaでパンダをインストールする
pandasとNumPyとSciPyスタックの残りの部分は、経験の浅いユーザーにとっては少し難しいかもしれません。
pandasだけでなく、PythonやSciPyスタック(IPython、NumPy、Matplotlibなど)を構成する最も人気のあるパッケージをインストールする最も簡単な方法は、クロスプラットフォーム(Linux、Mac OS X、Windows)のAnacondaです。データ解析と科学計算のためのPython配布。
シンプルなインストーラを実行すると、ユーザは他のソフトウェアをインストールすることなく、ソフトウェアのコンパイルを待つことなく、パンダやその他のSciPyスタックにアクセスできます。
Anacondaのインストール手順はこちらをご覧ください 。
Anacondaディストリビューションの一部として利用可能なパッケージの完全なリストがここにあります 。
Anacondaをインストールすることのもう一つの利点は、インストールするための管理者権限を必要とせず、ユーザーのホームディレクトリにインストールされ、後でAnacondaを削除するだけです(そのフォルダを削除するだけです)。
ミニコンダでパンダをインストールする
前のセクションでは、Panaをアナコンダ配布の一部としてインストールする方法について説明しました。ただし、この方法では、100以上のパッケージをインストールし、数百メガバイトのサイズのインストーラをダウンロードすることになります。
あなたがより多くのパッケージを制御したい、またはインターネット帯域幅が限られている場合は、 Minicondaでパンダをインストールする方が良い解決法かもしれません。
Condaは、Anacondaディストリビューションが構築しているパッケージマネージャです。これは、クロスプラットフォームと言語に依存しないパッケージマネージャーです(pipとvirtualenvの組み合わせに似た役割を果たすことができます)。
Minicondaはあなたが最小限の自己完結型のPythonのインストールを作成し、使用することができますCondaの追加パッケージをインストールするコマンドを。
まずCondaをインストールし、ダウンロードして実行する必要があります。Minicondaがこれを実行します。インストーラはここにあります 。
次のステップは、新しいconda環境を作成することです(これらはvirtualenvに似ていますが、インストールするPythonのバージョンも正確に指定できます)。ターミナルウィンドウから次のコマンドを実行します。
conda create -n name_of_my_env python
これによりPythonのみがインストールされた最小限の環境が作成されます。あなた自身をこの環境の中に置くには:
source activate name_of_my_env
Windowsの場合、コマンドは次のようになります。
activate name_of_my_env
必要な最後のステップは、パンダをインストールすることです。これは次のコマンドで行うことができます:
conda install pandas
特定のパンダバージョンをインストールするには:
conda install pandas=0.13.1
他のパッケージをインストールするには、例えばIPythonをインストールします:
conda install ipython
Anacondaディストリビューションを完全にインストールするには:
conda install anaconda
pipすることができますが、condaは使用できないパッケージが必要な場合は、単にpipをインストールし、pipを使用してこれらのパッケージをインストールします。
conda install pip
pip install django
通常は、パケットマネージャの1つを使ってパンダをインストールします。
pipの例:
pip install pandas
NumPyを含む多くの依存関係をインストールする必要があり、必要なコードをコンパイルするためにコンパイラーが必要になり、完了に数分かかることがあります。
anaconda経由でインストールする
最初にContinuumサイトからanacondaをダウンロードしてください。グラフィカルインストーラ(Windows / OSX)またはシェルスクリプト(OSX / Linux)を実行してください。これにはパンダも含まれます!
150個のパッケージを便利にanacondaにバンドルしたくない場合は、 minicondaをインストールすることができます。グラフィカルインストーラ(Windows)またはシェルスクリプト(OSX / Linux)のいずれかを使用します。
minicondaにpandasをインストールするには:
conda install pandas
anacondaまたはminicondaでパンダを最新バージョンに更新するには:
conda update pandas
こんにちは世界
Pandasがインストールされたら、ランダムに分散した値のデータセットを作成し、そのヒストグラムをプロットすることで、正しく動作しているかどうかを確認できます。
import pandas as pd # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(0)
values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()
データの統計情報(平均値、標準偏差など)を確認してください。
s.describe()
# Output: count 100.000000
# mean 0.059808
# std 1.012960
# min -2.552990
# 25% -0.643857
# 50% 0.094096
# 75% 0.737077
# max 2.269755
# dtype: float64
記述統計
数値列の記述統計量(平均、標準偏差、観測数、最小値、最大値、および4分位数)は、記述統計のpandasデータフレームを返す.describe()
メソッドを使用して計算できます。
In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1],
'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17],
'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})
In [2]: df
Out[2]:
A B C
0 1 12 a
1 2 14 a
2 1 11 b
3 4 16 a
4 3 18 b
5 5 18 c
6 2 22 b
7 3 13 a
8 4 21 b
9 1 17 a
In [3]: df.describe()
Out[3]:
A B
count 10.000000 10.000000
mean 2.600000 16.200000
std 1.429841 3.705851
min 1.000000 11.000000
25% 1.250000 13.250000
50% 2.500000 16.500000
75% 3.750000 18.000000
max 5.000000 22.000000
C
は数値列ではないため、出力から除外されていることに注意してください。
In [4]: df['C'].describe()
Out[4]:
count 10
unique 3
freq 5
Name: C, dtype: object
この場合、この方法は、観察回数、固有の要素の数、モード、およびモードの頻度によって分類データを要約する。