pandas Tutorial => Empezando con los pandas

Observaciones

Pandas es un paquete de Python que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para hacer que el trabajo con datos "relacionales" o "etiquetados" sea fácil e intuitivo. Pretende ser el elemento fundamental de alto nivel para realizar análisis de datos prácticos y del mundo real en Python.

La documentación oficial de Pandas se puede encontrar aquí .

Versiones

Pandas

Versión	Fecha de lanzamiento
0.19.1	2016-11-03
0.19.0	2016-10-02
0.18.1	2016-05-03
0.18.0	2016-03-13
0.17.1	2015-11-21
0.17.0	2015-10-09
0.16.2	2015-06-12
0.16.1	2015-05-11
0.16.0	2015-03-22
0.15.2	2014-12-12
0.15.1	2014-11-09
0.15.0	2014-10-18
0.14.1	2014-07-11
0.14.0	2014-05-31
0.13.1	2014-02-03
0.13.0	2014-01-03
0.12.0	2013-07-23

Instalación o configuración

Las instrucciones detalladas para configurar o instalar pandas se pueden encontrar aquí en la documentación oficial .

Instalando pandas con anaconda

Instalar pandas y el resto de la pila NumPy y SciPy puede ser un poco difícil para los usuarios inexpertos.

La forma más sencilla de instalar no solo pandas, sino Python y los paquetes más populares que forman la pila SciPy (IPython, NumPy, Matplotlib, ...) es con Anaconda , una multiplataforma (Linux, Mac OS X, Windows) Distribución en Python para análisis de datos y computación científica.

Después de ejecutar un instalador simple, el usuario tendrá acceso a los pandas y al resto de la pila SciPy sin necesidad de instalar nada más, y sin tener que esperar a que se compile ningún software.

Las instrucciones de instalación de Anaconda se pueden encontrar aquí .

Una lista completa de los paquetes disponibles como parte de la distribución de Anaconda se puede encontrar aquí .

Una ventaja adicional de la instalación con Anaconda es que no requiere derechos de administrador para instalarlo, se instalará en el directorio de inicio del usuario, y esto también hace que sea trivial eliminar Anaconda en una fecha posterior (solo elimine esa carpeta).

Instalando pandas con miniconda

La sección anterior describía cómo instalar pandas como parte de la distribución de Anaconda. Sin embargo, este enfoque significa que instalará más de cien paquetes e implica descargar el instalador, que tiene un tamaño de unos pocos cientos de megabytes.

Si desea tener más control sobre qué paquetes, o tiene un ancho de banda de Internet limitado, entonces instalar pandas con Miniconda puede ser una mejor solución.

Conda es el gestor de paquetes sobre el que se basa la distribución de Anaconda. Es un gestor de paquetes que es multiplataforma y es independiente del lenguaje (puede desempeñar un papel similar al de una combinación pip y virtualenv).

Miniconda le permite crear una instalación de Python mínima e independiente, y luego usar el comando Conda para instalar paquetes adicionales.

Primero, necesitará que se instale Conda, la descarga y la ejecución de Miniconda lo harán por usted. El instalador se puede encontrar aquí .

El siguiente paso es crear un nuevo entorno conda (estos son análogos a un virtualenv pero también le permiten especificar con precisión qué versión de Python se instalará también). Ejecuta los siguientes comandos desde una ventana de terminal:

conda create -n name_of_my_env python

Esto creará un entorno mínimo con solo Python instalado en él. Para ponerte dentro de este entorno corre:

source activate name_of_my_env

En Windows el comando es:

activate name_of_my_env

El paso final requerido es instalar pandas. Esto se puede hacer con el siguiente comando:

conda install pandas

Para instalar una versión específica de pandas:

conda install pandas=0.13.1

Para instalar otros paquetes, IPython por ejemplo:

conda install ipython

Para instalar la distribución completa de Anaconda:

conda install anaconda

Si necesita paquetes disponibles para pip pero no conda, simplemente instale pip y use pip para instalar estos paquetes:

conda install pip
pip install django

Por lo general, instalaría pandas con uno de los administradores de paquetes.

ejemplo de pip

pip install pandas

Esto probablemente requerirá la instalación de una serie de dependencias, incluyendo NumPy, requerirá un compilador para compilar los bits de código requeridos, y puede tardar unos minutos en completarse.

Instalar via anaconda

Primera descarga de anaconda desde el sitio de Continuum. Ya sea a través del instalador gráfico (Windows / OSX) o ejecutando un script de shell (OSX / Linux). Esto incluye pandas!

Si no desea que los 150 paquetes estén convenientemente agrupados en anaconda, puede instalar miniconda . Ya sea a través del instalador gráfico (Windows) o shell script (OSX / Linux).

Instala pandas en miniconda usando:

conda install pandas

Para actualizar pandas a la última versión en anaconda o miniconda use:

conda update pandas

Hola Mundo

Una vez que se haya instalado Pandas, puede verificar si está funcionando correctamente creando un conjunto de datos de valores distribuidos aleatoriamente y trazando su histograma.

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()

Compruebe algunas de las estadísticas de los datos (media, desviación estándar, etc.)

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64

Estadísticas descriptivas

Las estadísticas descriptivas (media, desviación estándar, número de observaciones, mínimo, máximo y cuartiles) de las columnas numéricas se pueden calcular utilizando el método .describe() , que devuelve un marco de datos de pandas de estadísticas descriptivas.

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000

Tenga en cuenta que dado que C no es una columna numérica, se excluye de la salida.

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object

En este caso, el método resume los datos categóricos por número de observaciones, número de elementos únicos, modo y frecuencia del modo.

Modified text is an extract of the original Stack Overflow Documentation

Licenciado bajo CC BY-SA 3.0

No afiliado a Stack Overflow

pandas Tutorial
Empezando con los pandas

Buscar..