pandas Tutorial
Empezando con los pandas
Buscar..
Observaciones
Pandas es un paquete de Python que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para hacer que el trabajo con datos "relacionales" o "etiquetados" sea fácil e intuitivo. Pretende ser el elemento fundamental de alto nivel para realizar análisis de datos prácticos y del mundo real en Python.
La documentación oficial de Pandas se puede encontrar aquí .
Versiones
Pandas
Versión | Fecha de lanzamiento |
---|---|
0.19.1 | 2016-11-03 |
0.19.0 | 2016-10-02 |
0.18.1 | 2016-05-03 |
0.18.0 | 2016-03-13 |
0.17.1 | 2015-11-21 |
0.17.0 | 2015-10-09 |
0.16.2 | 2015-06-12 |
0.16.1 | 2015-05-11 |
0.16.0 | 2015-03-22 |
0.15.2 | 2014-12-12 |
0.15.1 | 2014-11-09 |
0.15.0 | 2014-10-18 |
0.14.1 | 2014-07-11 |
0.14.0 | 2014-05-31 |
0.13.1 | 2014-02-03 |
0.13.0 | 2014-01-03 |
0.12.0 | 2013-07-23 |
Instalación o configuración
Las instrucciones detalladas para configurar o instalar pandas se pueden encontrar aquí en la documentación oficial .
Instalando pandas con anaconda
Instalar pandas y el resto de la pila NumPy y SciPy puede ser un poco difícil para los usuarios inexpertos.
La forma más sencilla de instalar no solo pandas, sino Python y los paquetes más populares que forman la pila SciPy (IPython, NumPy, Matplotlib, ...) es con Anaconda , una multiplataforma (Linux, Mac OS X, Windows) Distribución en Python para análisis de datos y computación científica.
Después de ejecutar un instalador simple, el usuario tendrá acceso a los pandas y al resto de la pila SciPy sin necesidad de instalar nada más, y sin tener que esperar a que se compile ningún software.
Las instrucciones de instalación de Anaconda se pueden encontrar aquí .
Una lista completa de los paquetes disponibles como parte de la distribución de Anaconda se puede encontrar aquí .
Una ventaja adicional de la instalación con Anaconda es que no requiere derechos de administrador para instalarlo, se instalará en el directorio de inicio del usuario, y esto también hace que sea trivial eliminar Anaconda en una fecha posterior (solo elimine esa carpeta).
Instalando pandas con miniconda
La sección anterior describía cómo instalar pandas como parte de la distribución de Anaconda. Sin embargo, este enfoque significa que instalará más de cien paquetes e implica descargar el instalador, que tiene un tamaño de unos pocos cientos de megabytes.
Si desea tener más control sobre qué paquetes, o tiene un ancho de banda de Internet limitado, entonces instalar pandas con Miniconda puede ser una mejor solución.
Conda es el gestor de paquetes sobre el que se basa la distribución de Anaconda. Es un gestor de paquetes que es multiplataforma y es independiente del lenguaje (puede desempeñar un papel similar al de una combinación pip y virtualenv).
Miniconda le permite crear una instalación de Python mínima e independiente, y luego usar el comando Conda para instalar paquetes adicionales.
Primero, necesitará que se instale Conda, la descarga y la ejecución de Miniconda lo harán por usted. El instalador se puede encontrar aquí .
El siguiente paso es crear un nuevo entorno conda (estos son análogos a un virtualenv pero también le permiten especificar con precisión qué versión de Python se instalará también). Ejecuta los siguientes comandos desde una ventana de terminal:
conda create -n name_of_my_env python
Esto creará un entorno mínimo con solo Python instalado en él. Para ponerte dentro de este entorno corre:
source activate name_of_my_env
En Windows el comando es:
activate name_of_my_env
El paso final requerido es instalar pandas. Esto se puede hacer con el siguiente comando:
conda install pandas
Para instalar una versión específica de pandas:
conda install pandas=0.13.1
Para instalar otros paquetes, IPython por ejemplo:
conda install ipython
Para instalar la distribución completa de Anaconda:
conda install anaconda
Si necesita paquetes disponibles para pip pero no conda, simplemente instale pip y use pip para instalar estos paquetes:
conda install pip
pip install django
Por lo general, instalaría pandas con uno de los administradores de paquetes.
ejemplo de pip
pip install pandas
Esto probablemente requerirá la instalación de una serie de dependencias, incluyendo NumPy, requerirá un compilador para compilar los bits de código requeridos, y puede tardar unos minutos en completarse.
Instalar via anaconda
Primera descarga de anaconda desde el sitio de Continuum. Ya sea a través del instalador gráfico (Windows / OSX) o ejecutando un script de shell (OSX / Linux). Esto incluye pandas!
Si no desea que los 150 paquetes estén convenientemente agrupados en anaconda, puede instalar miniconda . Ya sea a través del instalador gráfico (Windows) o shell script (OSX / Linux).
Instala pandas en miniconda usando:
conda install pandas
Para actualizar pandas a la última versión en anaconda o miniconda use:
conda update pandas
Hola Mundo
Una vez que se haya instalado Pandas, puede verificar si está funcionando correctamente creando un conjunto de datos de valores distribuidos aleatoriamente y trazando su histograma.
import pandas as pd # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(0)
values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()
Compruebe algunas de las estadísticas de los datos (media, desviación estándar, etc.)
s.describe()
# Output: count 100.000000
# mean 0.059808
# std 1.012960
# min -2.552990
# 25% -0.643857
# 50% 0.094096
# 75% 0.737077
# max 2.269755
# dtype: float64
Estadísticas descriptivas
Las estadísticas descriptivas (media, desviación estándar, número de observaciones, mínimo, máximo y cuartiles) de las columnas numéricas se pueden calcular utilizando el método .describe()
, que devuelve un marco de datos de pandas de estadísticas descriptivas.
In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1],
'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17],
'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})
In [2]: df
Out[2]:
A B C
0 1 12 a
1 2 14 a
2 1 11 b
3 4 16 a
4 3 18 b
5 5 18 c
6 2 22 b
7 3 13 a
8 4 21 b
9 1 17 a
In [3]: df.describe()
Out[3]:
A B
count 10.000000 10.000000
mean 2.600000 16.200000
std 1.429841 3.705851
min 1.000000 11.000000
25% 1.250000 13.250000
50% 2.500000 16.500000
75% 3.750000 18.000000
max 5.000000 22.000000
Tenga en cuenta que dado que C
no es una columna numérica, se excluye de la salida.
In [4]: df['C'].describe()
Out[4]:
count 10
unique 3
freq 5
Name: C, dtype: object
En este caso, el método resume los datos categóricos por número de observaciones, número de elementos únicos, modo y frecuencia del modo.