pandas Handledning
Komma igång med pandor
Sök…
Anmärkningar
Pandas är ett Python-paket som tillhandahåller snabba, flexibla och uttrycksfulla datastrukturer som är utformade för att göra arbetet med "relationella" eller "märkta" data både enkelt och intuitivt. Det syftar till att vara den grundläggande byggnadsnivån på hög nivå för att göra praktisk, dataanalys i verklig värld i Python.
Den officiella Pandas-dokumentationen kan hittas här .
versioner
pandas
Version | Utgivningsdatum |
---|---|
0.19.1 | 2016/11/03 |
0.19.0 | 2016/10/02 |
0.18.1 | 2016/05/03 |
0.18.0 | 2016/03/13 |
0.17.1 | 2015/11/21 |
0.17.0 | 2015/10/09 |
0.16.2 | 2015/06/12 |
0.16.1 | 2015/05/11 |
0.16.0 | 2015/03/22 |
0.15.2 | 2014/12/12 |
0.15.1 | 2014/11/09 |
0.15.0 | 2014/10/18 |
0.14.1 | 2014/07/11 |
0.14.0 | 2014/05/31 |
0.13.1 | 2014/02/03 |
0.13.0 | 2014/01/03 |
0.12.0 | 2013/07/23 |
Installation eller installation
Detaljerade instruktioner för att få installerade eller installerade pandor finns här i den officiella dokumentationen .
Installera pandor med Anaconda
Att installera pandor och resten av NumPy- och SciPy- stacken kan vara lite svårt för oerfarna användare.
Det enklaste sättet att installera inte bara pandor, utan Python och de mest populära paketen som utgör SciPy-stacken (IPython, NumPy, Matplotlib, ...) är med Anaconda , en korsplattform (Linux, Mac OS X, Windows) Python-distribution för dataanalys och vetenskaplig databehandling.
Efter att ha kört ett enkelt installationsprogram har användaren tillgång till pandor och resten av SciPy-stacken utan att behöva installera något annat och utan att behöva vänta på att någon programvara ska sammanställas.
Installationsinstruktioner för Anaconda finns här .
Här hittar du en fullständig lista över paketen som finns tillgängliga som en del av Anaconda-distributionen.
En ytterligare fördel med att installera med Anaconda är att du inte behöver administratörsrättigheter för att installera det, det kommer att installeras i användarens hemkatalog, och detta gör det också trivialt att ta bort Anaconda vid ett senare datum (bara ta bort den mappen).
Installera pandor med Miniconda
Det föregående avsnittet beskrev hur man installerar pandor som en del av Anaconda-distributionen. Men detta tillvägagångssätt innebär att du kommer att installera över hundra paket och innebär att du laddar ner installationsprogrammet som är några hundra megabyte i storlek.
Om du vill ha mer kontroll över vilka paket, eller har en begränsad internetbandbredd, kan det vara en bättre lösning att installera pandaer med Miniconda .
Conda är paketansvarig som Anaconda-distributionen bygger på. Det är en paketansvarig som är både plattforms- och språkagnostisk (det kan spela en liknande roll som en pip- och virtualenv-kombination).
Med Miniconda kan du skapa en minimal självständig Python-installation och sedan använda Conda- kommandot för att installera ytterligare paket.
Först behöver du Conda för att installeras och ladda ner och köra Miniconda gör detta åt dig. Installatören kan hittas här .
Nästa steg är att skapa en ny conda-miljö (dessa är analoga med en virtualenv men de ger dig också möjlighet att specificera exakt vilken Python-version som ska installeras också). Kör följande kommandon från ett terminalfönster:
conda create -n name_of_my_env python
Detta skapar en minimal miljö med bara Python installerat i den. För att lägga dig själv i denna miljö kör:
source activate name_of_my_env
I Windows är kommandot:
activate name_of_my_env
Det sista steget som krävs är att installera pandor. Detta kan göras med följande kommando:
conda install pandas
Så här installerar du en specifik panda-version:
conda install pandas=0.13.1
För att installera andra paket, till exempel IPython:
conda install ipython
Så här installerar du hela Anaconda-distributionen:
conda install anaconda
Om du behöver några paket som är tillgängliga för pip men inte conda, installerar du bara pip och använder pip för att installera dessa paket:
conda install pip
pip install django
Vanligtvis skulle du installera pandor med en av paketansvariga.
pip exempel:
pip install pandas
Detta kommer sannolikt att kräva installation av ett antal beroenden, inklusive NumPy, kommer att kräva en kompilator för att sammanställa nödvändiga kodbitar och det kan ta några minuter att slutföra.
Installera via anaconda
Ladda ner först anaconda från Continuum-webbplatsen. Antingen via det grafiska installationsprogrammet (Windows / OSX) eller med ett skalskript (OSX / Linux). Detta inkluderar pandor!
Om du inte vill att de 150 paketenen ska vara buntade i anaconda kan du installera miniconda . Antingen via det grafiska installationsprogrammet (Windows) eller skalskriptet (OSX / Linux).
Installera pandor på miniconda med:
conda install pandas
För att uppdatera pandor till den senaste versionen i anaconda eller miniconda, använd:
conda update pandas
Hej världen
När Pandas har installerats kan du kontrollera om det fungerar korrekt genom att skapa ett datasæt med slumpmässigt distribuerade värden och plotta dess histogram.
import pandas as pd # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(0)
values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()
Kolla in en del av statistikens data (medelvärde, standardavvikelse, etc.)
s.describe()
# Output: count 100.000000
# mean 0.059808
# std 1.012960
# min -2.552990
# 25% -0.643857
# 50% 0.094096
# 75% 0.737077
# max 2.269755
# dtype: float64
Beskrivande statistik
Beskrivande statistik (medelvärde, standardavvikelse, antal observationer, minimum, maximum och kvartiler) av numeriska kolumner kan beräknas med .describe()
, som returnerar en pandas dataframe för beskrivande statistik.
In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1],
'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17],
'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})
In [2]: df
Out[2]:
A B C
0 1 12 a
1 2 14 a
2 1 11 b
3 4 16 a
4 3 18 b
5 5 18 c
6 2 22 b
7 3 13 a
8 4 21 b
9 1 17 a
In [3]: df.describe()
Out[3]:
A B
count 10.000000 10.000000
mean 2.600000 16.200000
std 1.429841 3.705851
min 1.000000 11.000000
25% 1.250000 13.250000
50% 2.500000 16.500000
75% 3.750000 18.000000
max 5.000000 22.000000
Observera att eftersom C
inte är en numerisk kolumn, utesluts den från utgången.
In [4]: df['C'].describe()
Out[4]:
count 10
unique 3
freq 5
Name: C, dtype: object
I detta fall sammanfattar metoden kategoriska data efter antal observationer, antal unika element, läge och frekvens för läget.