pandas Handledning => Komma igång med pandor

Anmärkningar

Pandas är ett Python-paket som tillhandahåller snabba, flexibla och uttrycksfulla datastrukturer som är utformade för att göra arbetet med "relationella" eller "märkta" data både enkelt och intuitivt. Det syftar till att vara den grundläggande byggnadsnivån på hög nivå för att göra praktisk, dataanalys i verklig värld i Python.

Den officiella Pandas-dokumentationen kan hittas här .

versioner

pandas

Version	Utgivningsdatum
0.19.1	2016/11/03
0.19.0	2016/10/02
0.18.1	2016/05/03
0.18.0	2016/03/13
0.17.1	2015/11/21
0.17.0	2015/10/09
0.16.2	2015/06/12
0.16.1	2015/05/11
0.16.0	2015/03/22
0.15.2	2014/12/12
0.15.1	2014/11/09
0.15.0	2014/10/18
0.14.1	2014/07/11
0.14.0	2014/05/31
0.13.1	2014/02/03
0.13.0	2014/01/03
0.12.0	2013/07/23

Installation eller installation

Detaljerade instruktioner för att få installerade eller installerade pandor finns här i den officiella dokumentationen .

Installera pandor med Anaconda

Att installera pandor och resten av NumPy- och SciPy- stacken kan vara lite svårt för oerfarna användare.

Det enklaste sättet att installera inte bara pandor, utan Python och de mest populära paketen som utgör SciPy-stacken (IPython, NumPy, Matplotlib, ...) är med Anaconda , en korsplattform (Linux, Mac OS X, Windows) Python-distribution för dataanalys och vetenskaplig databehandling.

Efter att ha kört ett enkelt installationsprogram har användaren tillgång till pandor och resten av SciPy-stacken utan att behöva installera något annat och utan att behöva vänta på att någon programvara ska sammanställas.

Installationsinstruktioner för Anaconda finns här .

Här hittar du en fullständig lista över paketen som finns tillgängliga som en del av Anaconda-distributionen.

En ytterligare fördel med att installera med Anaconda är att du inte behöver administratörsrättigheter för att installera det, det kommer att installeras i användarens hemkatalog, och detta gör det också trivialt att ta bort Anaconda vid ett senare datum (bara ta bort den mappen).

Installera pandor med Miniconda

Det föregående avsnittet beskrev hur man installerar pandor som en del av Anaconda-distributionen. Men detta tillvägagångssätt innebär att du kommer att installera över hundra paket och innebär att du laddar ner installationsprogrammet som är några hundra megabyte i storlek.

Om du vill ha mer kontroll över vilka paket, eller har en begränsad internetbandbredd, kan det vara en bättre lösning att installera pandaer med Miniconda .

Conda är paketansvarig som Anaconda-distributionen bygger på. Det är en paketansvarig som är både plattforms- och språkagnostisk (det kan spela en liknande roll som en pip- och virtualenv-kombination).

Med Miniconda kan du skapa en minimal självständig Python-installation och sedan använda Conda- kommandot för att installera ytterligare paket.

Först behöver du Conda för att installeras och ladda ner och köra Miniconda gör detta åt dig. Installatören kan hittas här .

Nästa steg är att skapa en ny conda-miljö (dessa är analoga med en virtualenv men de ger dig också möjlighet att specificera exakt vilken Python-version som ska installeras också). Kör följande kommandon från ett terminalfönster:

conda create -n name_of_my_env python

Detta skapar en minimal miljö med bara Python installerat i den. För att lägga dig själv i denna miljö kör:

source activate name_of_my_env

I Windows är kommandot:

activate name_of_my_env

Det sista steget som krävs är att installera pandor. Detta kan göras med följande kommando:

conda install pandas

Så här installerar du en specifik panda-version:

conda install pandas=0.13.1

För att installera andra paket, till exempel IPython:

conda install ipython

Så här installerar du hela Anaconda-distributionen:

conda install anaconda

Om du behöver några paket som är tillgängliga för pip men inte conda, installerar du bara pip och använder pip för att installera dessa paket:

conda install pip
pip install django

Vanligtvis skulle du installera pandor med en av paketansvariga.

pip exempel:

pip install pandas

Detta kommer sannolikt att kräva installation av ett antal beroenden, inklusive NumPy, kommer att kräva en kompilator för att sammanställa nödvändiga kodbitar och det kan ta några minuter att slutföra.

Installera via anaconda

Ladda ner först anaconda från Continuum-webbplatsen. Antingen via det grafiska installationsprogrammet (Windows / OSX) eller med ett skalskript (OSX / Linux). Detta inkluderar pandor!

Om du inte vill att de 150 paketenen ska vara buntade i anaconda kan du installera miniconda . Antingen via det grafiska installationsprogrammet (Windows) eller skalskriptet (OSX / Linux).

Installera pandor på miniconda med:

conda install pandas

För att uppdatera pandor till den senaste versionen i anaconda eller miniconda, använd:

conda update pandas

Hej världen

När Pandas har installerats kan du kontrollera om det fungerar korrekt genom att skapa ett datasæt med slumpmässigt distribuerade värden och plotta dess histogram.

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()

Kolla in en del av statistikens data (medelvärde, standardavvikelse, etc.)

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64

Beskrivande statistik

Beskrivande statistik (medelvärde, standardavvikelse, antal observationer, minimum, maximum och kvartiler) av numeriska kolumner kan beräknas med .describe() , som returnerar en pandas dataframe för beskrivande statistik.

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000

Observera att eftersom C inte är en numerisk kolumn, utesluts den från utgången.

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object

I detta fall sammanfattar metoden kategoriska data efter antal observationer, antal unika element, läge och frekvens för läget.

Modified text is an extract of the original Stack Overflow Documentation

Licensierat under CC BY-SA 3.0

Inte anslutet till Stack Overflow

pandas Handledning
Komma igång med pandor

Sök…