pandas Tutorial
Iniziare con i panda
Ricerca…
Osservazioni
Pandas è un pacchetto Python che fornisce strutture di dati veloci, flessibili ed espressive progettate per rendere il lavoro con dati "relazionali" o "etichettati" sia facile che intuitivo. Mira ad essere il blocco fondamentale di alto livello per fare analisi pratiche dei dati reali in Python.
La documentazione ufficiale di Pandas può essere trovata qui .
Versioni
Pandas
Versione | Data di rilascio |
---|---|
0.19.1 | 2016/11/03 |
0.19.0 | 2016/10/02 |
0.18.1 | 2016/05/03 |
0.18.0 | 2016/03/13 |
0.17.1 | 2015/11/21 |
0.17.0 | 2015/10/09 |
0.16.2 | 2015/06/12 |
0.16.1 | 2015/05/11 |
0.16.0 | 2015/03/22 |
0.15.2 | 2014/12/12 |
0.15.1 | 2014/11/09 |
0.15.0 | 2014/10/18 |
0.14.1 | 2014/07/11 |
0.14.0 | 2014/05/31 |
0.13.1 | 2014/02/03 |
0.13.0 | 2014/01/03 |
0.12.0 | 2013/07/23 |
Installazione o configurazione
Istruzioni dettagliate su come installare o installare i panda possono essere trovate qui nella documentazione ufficiale .
Installazione di panda con Anaconda
Installare panda e il resto dello stack NumPy e SciPy può essere un po 'difficile per gli utenti inesperti.
Il modo più semplice per installare non solo i panda, ma Python e i pacchetti più popolari che compongono lo stack SciPy (IPython, NumPy, Matplotlib, ...) è con Anaconda , una piattaforma multipiattaforma (Linux, Mac OS X, Windows) Distribuzione Python per analisi dei dati e calcolo scientifico.
Dopo aver eseguito un semplice programma di installazione, l'utente avrà accesso ai panda e al resto dello stack SciPy senza bisogno di installare altro e senza dover attendere la compilazione di alcun software.
Le istruzioni di installazione per Anaconda possono essere trovate qui .
Un elenco completo dei pacchetti disponibili come parte della distribuzione di Anaconda può essere trovato qui .
Un ulteriore vantaggio dell'installazione con Anaconda è che non è necessario disporre dei diritti di amministratore per installarlo, verrà installato nella home directory dell'utente e ciò rende inoltre banale l'eliminazione di Anaconda in un secondo momento (basta eliminare tale cartella).
Installazione dei panda con Miniconda
La sezione precedente delineava come ottenere i panda installati come parte della distribuzione di Anaconda. Tuttavia, questo approccio implica l'installazione di oltre un centinaio di pacchetti e comporta il download del programma di installazione di poche centinaia di megabyte.
Se vuoi avere più controllo su quali pacchetti, o avere una larghezza di banda internet limitata, installare dei panda con Miniconda potrebbe essere una soluzione migliore.
Conda è il gestore di pacchetti su cui è costruita la distribuzione di Anaconda. È un gestore di pacchetti che è indipendente dalla piattaforma e dalla lingua (può giocare un ruolo simile a una combinazione pip e virtualenv).
Miniconda consente di creare un'installazione Python autonoma e minimale, quindi utilizzare il comando Conda per installare pacchetti aggiuntivi.
Innanzitutto avrai bisogno di Conda per essere installato e il download e l'esecuzione di Miniconda lo faranno per te. L'installer può essere trovato qui .
Il passo successivo è quello di creare un nuovo ambiente conda (questi sono analoghi a un virtualenv ma consentono anche di specificare con precisione quale versione Python installare anche). Esegui i seguenti comandi da una finestra di terminale:
conda create -n name_of_my_env python
Questo creerà un ambiente minimale con solo Python installato in esso. Per metterti dentro questo ambiente, corri:
source activate name_of_my_env
Su Windows il comando è:
activate name_of_my_env
Il passaggio finale richiesto è installare i panda. Questo può essere fatto con il seguente comando:
conda install pandas
Per installare una versione di panda specifica:
conda install pandas=0.13.1
Per installare altri pacchetti, ad esempio IPython:
conda install ipython
Per installare la distribuzione completa di Anaconda:
conda install anaconda
Se hai bisogno di pacchetti disponibili per pip ma non di conda, installa semplicemente pip e usa pip per installare questi pacchetti:
conda install pip
pip install django
Di solito, si installano i panda con uno dei gestori di pacchetti.
esempio pip:
pip install pandas
Ciò richiederà probabilmente l'installazione di un numero di dipendenze, tra cui NumPy, richiederà un compilatore per compilare i bit di codice richiesti e può richiedere alcuni minuti per essere completato.
Installa via anaconda
Per prima cosa scarica anaconda dal sito Continuum. Tramite il programma di installazione grafico (Windows / OSX) o eseguendo uno script di shell (OSX / Linux). Questo include i panda!
Se non vuoi che i 150 pacchetti siano comodamente raggruppati in anaconda, puoi installare miniconda . Tramite il programma di installazione grafico (Windows) o lo script di shell (OSX / Linux).
Installa i panda su miniconda usando:
conda install pandas
Per aggiornare i panda all'ultima versione in anaconda o miniconda usare:
conda update pandas
Ciao mondo
Una volta installato Pandas, è possibile verificare se funziona correttamente creando un set di dati con valori distribuiti casualmente e tracciando il proprio istogramma.
import pandas as pd # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(0)
values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()
Controlla alcune delle statistiche dei dati (media, deviazione standard, ecc.)
s.describe()
# Output: count 100.000000
# mean 0.059808
# std 1.012960
# min -2.552990
# 25% -0.643857
# 50% 0.094096
# 75% 0.737077
# max 2.269755
# dtype: float64
Statistiche descrittive
Le statistiche descrittive (media, deviazione standard, numero di osservazioni, minimo, massimo e quartili) di colonne numeriche possono essere calcolate utilizzando il metodo .describe()
, che restituisce un dataframe panda di statistiche descrittive.
In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1],
'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17],
'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})
In [2]: df
Out[2]:
A B C
0 1 12 a
1 2 14 a
2 1 11 b
3 4 16 a
4 3 18 b
5 5 18 c
6 2 22 b
7 3 13 a
8 4 21 b
9 1 17 a
In [3]: df.describe()
Out[3]:
A B
count 10.000000 10.000000
mean 2.600000 16.200000
std 1.429841 3.705851
min 1.000000 11.000000
25% 1.250000 13.250000
50% 2.500000 16.500000
75% 3.750000 18.000000
max 5.000000 22.000000
Si noti che poiché C
non è una colonna numerica, è esclusa dall'output.
In [4]: df['C'].describe()
Out[4]:
count 10
unique 3
freq 5
Name: C, dtype: object
In questo caso il metodo riepiloga i dati categoriali per numero di osservazioni, numero di elementi unici, modalità e frequenza della modalità.