pandas Tutorial => Iniziare con i panda

Osservazioni

Pandas è un pacchetto Python che fornisce strutture di dati veloci, flessibili ed espressive progettate per rendere il lavoro con dati "relazionali" o "etichettati" sia facile che intuitivo. Mira ad essere il blocco fondamentale di alto livello per fare analisi pratiche dei dati reali in Python.

La documentazione ufficiale di Pandas può essere trovata qui .

Versioni

Pandas

Versione	Data di rilascio
0.19.1	2016/11/03
0.19.0	2016/10/02
0.18.1	2016/05/03
0.18.0	2016/03/13
0.17.1	2015/11/21
0.17.0	2015/10/09
0.16.2	2015/06/12
0.16.1	2015/05/11
0.16.0	2015/03/22
0.15.2	2014/12/12
0.15.1	2014/11/09
0.15.0	2014/10/18
0.14.1	2014/07/11
0.14.0	2014/05/31
0.13.1	2014/02/03
0.13.0	2014/01/03
0.12.0	2013/07/23

Installazione o configurazione

Istruzioni dettagliate su come installare o installare i panda possono essere trovate qui nella documentazione ufficiale .

Installazione di panda con Anaconda

Installare panda e il resto dello stack NumPy e SciPy può essere un po 'difficile per gli utenti inesperti.

Il modo più semplice per installare non solo i panda, ma Python e i pacchetti più popolari che compongono lo stack SciPy (IPython, NumPy, Matplotlib, ...) è con Anaconda , una piattaforma multipiattaforma (Linux, Mac OS X, Windows) Distribuzione Python per analisi dei dati e calcolo scientifico.

Dopo aver eseguito un semplice programma di installazione, l'utente avrà accesso ai panda e al resto dello stack SciPy senza bisogno di installare altro e senza dover attendere la compilazione di alcun software.

Le istruzioni di installazione per Anaconda possono essere trovate qui .

Un elenco completo dei pacchetti disponibili come parte della distribuzione di Anaconda può essere trovato qui .

Un ulteriore vantaggio dell'installazione con Anaconda è che non è necessario disporre dei diritti di amministratore per installarlo, verrà installato nella home directory dell'utente e ciò rende inoltre banale l'eliminazione di Anaconda in un secondo momento (basta eliminare tale cartella).

Installazione dei panda con Miniconda

La sezione precedente delineava come ottenere i panda installati come parte della distribuzione di Anaconda. Tuttavia, questo approccio implica l'installazione di oltre un centinaio di pacchetti e comporta il download del programma di installazione di poche centinaia di megabyte.

Se vuoi avere più controllo su quali pacchetti, o avere una larghezza di banda internet limitata, installare dei panda con Miniconda potrebbe essere una soluzione migliore.

Conda è il gestore di pacchetti su cui è costruita la distribuzione di Anaconda. È un gestore di pacchetti che è indipendente dalla piattaforma e dalla lingua (può giocare un ruolo simile a una combinazione pip e virtualenv).

Miniconda consente di creare un'installazione Python autonoma e minimale, quindi utilizzare il comando Conda per installare pacchetti aggiuntivi.

Innanzitutto avrai bisogno di Conda per essere installato e il download e l'esecuzione di Miniconda lo faranno per te. L'installer può essere trovato qui .

Il passo successivo è quello di creare un nuovo ambiente conda (questi sono analoghi a un virtualenv ma consentono anche di specificare con precisione quale versione Python installare anche). Esegui i seguenti comandi da una finestra di terminale:

conda create -n name_of_my_env python

Questo creerà un ambiente minimale con solo Python installato in esso. Per metterti dentro questo ambiente, corri:

source activate name_of_my_env

Su Windows il comando è:

activate name_of_my_env

Il passaggio finale richiesto è installare i panda. Questo può essere fatto con il seguente comando:

conda install pandas

Per installare una versione di panda specifica:

conda install pandas=0.13.1

Per installare altri pacchetti, ad esempio IPython:

conda install ipython

Per installare la distribuzione completa di Anaconda:

conda install anaconda

Se hai bisogno di pacchetti disponibili per pip ma non di conda, installa semplicemente pip e usa pip per installare questi pacchetti:

conda install pip
pip install django

Di solito, si installano i panda con uno dei gestori di pacchetti.

esempio pip:

pip install pandas

Ciò richiederà probabilmente l'installazione di un numero di dipendenze, tra cui NumPy, richiederà un compilatore per compilare i bit di codice richiesti e può richiedere alcuni minuti per essere completato.

Installa via anaconda

Per prima cosa scarica anaconda dal sito Continuum. Tramite il programma di installazione grafico (Windows / OSX) o eseguendo uno script di shell (OSX / Linux). Questo include i panda!

Se non vuoi che i 150 pacchetti siano comodamente raggruppati in anaconda, puoi installare miniconda . Tramite il programma di installazione grafico (Windows) o lo script di shell (OSX / Linux).

Installa i panda su miniconda usando:

conda install pandas

Per aggiornare i panda all'ultima versione in anaconda o miniconda usare:

conda update pandas

Ciao mondo

Una volta installato Pandas, è possibile verificare se funziona correttamente creando un set di dati con valori distribuiti casualmente e tracciando il proprio istogramma.

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()

Controlla alcune delle statistiche dei dati (media, deviazione standard, ecc.)

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64

Statistiche descrittive

Le statistiche descrittive (media, deviazione standard, numero di osservazioni, minimo, massimo e quartili) di colonne numeriche possono essere calcolate utilizzando il metodo .describe() , che restituisce un dataframe panda di statistiche descrittive.

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000

Si noti che poiché C non è una colonna numerica, è esclusa dall'output.

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object

In questo caso il metodo riepiloga i dati categoriali per numero di osservazioni, numero di elementi unici, modalità e frequenza della modalità.

Modified text is an extract of the original Stack Overflow Documentation

Autorizzato sotto CC BY-SA 3.0

Non affiliato con Stack Overflow

pandas Tutorial
Iniziare con i panda

Ricerca…