pandas => Herramientas de Pandas IO (leer y guardar conjuntos de datos)

Observaciones

La documentación oficial de pandas incluye una página en IO Tools con una lista de funciones relevantes para leer y escribir en archivos, así como algunos ejemplos y parámetros comunes.

Leyendo el archivo csv en DataFrame

Ejemplo para leer el archivo data_file.csv como:

Expediente:

index,header1,header2,header3
1,str_data,12,1.4
3,str_data,22,42.33
4,str_data,2,3.44
2,str_data,43,43.34

7, str_data, 25, 23.32

Código:

pd.read_csv('data_file.csv')

Salida:

   index    header1  header2  header3
0      1   str_data       12     1.40
1      3   str_data       22    42.33
2      4   str_data        2     3.44
3      2   str_data       43    43.34
4      7   str_data       25    23.32

Algunos argumentos útiles:

sep El delimitador de campo predeterminado es una coma , . Use esta opción si necesita un delimitador diferente, por ejemplo pd.read_csv('data_file.csv', sep=';')

index_col Con index_col = n ( n un entero) le dice a pandas que use la columna n para indexar el DataFrame. En el ejemplo anterior:

pd.read_csv('data_file.csv',  index_col=0)

Salida:

          header1  header2  header3
index
 1       str_data       12     1.40
 3       str_data       22    42.33
 4       str_data        2     3.44
 2       str_data       43    43.34
 7       str_data       25    23.32

skip_blank_lines Por defecto, las líneas en blanco se omiten. Use skip_blank_lines=False para incluir líneas en blanco (se llenarán con valores de NaN )

pd.read_csv('data_file.csv',  index_col=0,skip_blank_lines=False)

Salida:

         header1  header2  header3
index
 1      str_data       12     1.40
 3      str_data       22    42.33
 4      str_data        2     3.44
 2      str_data       43    43.34
NaN          NaN      NaN      NaN
 7      str_data       25    23.32

parse_dates Use esta opción para analizar datos de fecha.

Expediente:

date_begin;date_end;header3;header4;header5
1/1/2017;1/10/2017;str_data;1001;123,45
2/1/2017;2/10/2017;str_data;1001;67,89
3/1/2017;3/10/2017;str_data;1001;0

Código para analizar las columnas 0 y 1 como fechas:

pd.read_csv('f.csv', sep=';', parse_dates=[0,1])

Salida:

  date_begin   date_end   header3  header4 header5
0 2017-01-01 2017-01-10  str_data     1001  123,45
1 2017-02-01 2017-02-10  str_data     1001   67,89
2 2017-03-01 2017-03-10  str_data     1001       0

Por defecto, el formato de fecha es inferido. Si desea especificar un formato de fecha, puede utilizar, por ejemplo,

dateparse = lambda x: pd.datetime.strptime(x, '%d/%m/%Y')
pd.read_csv('f.csv', sep=';',parse_dates=[0,1],date_parser=dateparse)

Salida:

  date_begin   date_end   header3  header4 header5
0 2017-01-01 2017-10-01  str_data     1001  123,45
1 2017-01-02 2017-10-02  str_data     1001   67,89
2 2017-01-03 2017-10-03  str_data     1001       0

Puede encontrar más información sobre los parámetros de la función en la documentación oficial .

Guardado básico en un archivo csv

raw_data = {'first_name': ['John', 'Jane', 'Jim'],
            'last_name': ['Doe', 'Smith', 'Jones'],
            'department': ['Accounting', 'Sales', 'Engineering'],}
df = pd.DataFrame(raw_data,columns=raw_data.keys())
df.to_csv('data_file.csv')

Fechas de análisis al leer de CSV

Puede especificar una columna que contenga fechas para que los pandas las analicen automáticamente al leer desde el csv

pandas.read_csv('data_file.csv', parse_dates=['date_column'])

Hoja de cálculo para dictado de DataFrames

with pd.ExcelFile('path_to_file.xls) as xl:
    d = {sheet_name: xl.parse(sheet_name) for sheet_name in xl.sheet_names}

Lee una hoja específica

pd.read_excel('path_to_file.xls', sheetname='Sheet1')

Hay muchas opciones de análisis para read_excel (similares a las opciones en read_csv .

pd.read_excel('path_to_file.xls',
              sheetname='Sheet1', header=[0, 1, 2],
              skiprows=3, index_col=0)  # etc.

Prueba de read_csv

import pandas as pd
import io

temp=u"""index; header1; header2; header3
1; str_data; 12; 1.4
3; str_data; 22; 42.33
4; str_data; 2; 3.44
2; str_data; 43; 43.34
7; str_data; 25; 23.32"""
#after testing replace io.StringIO(temp) to filename
df = pd.read_csv(io.StringIO(temp),  
                 sep = ';', 
                 index_col = 0,
                 skip_blank_lines = True)
print (df)
         header1   header2   header3
index                               
1       str_data        12      1.40
3       str_data        22     42.33
4       str_data         2      3.44
2       str_data        43     43.34
7       str_data        25     23.32

Lista de comprensión

Todos los archivos están en files carpeta. Primero crea una lista de DataFrames y luego concat :

import pandas as pd
import glob

#a.csv
#a,b
#1,2
#5,8

#b.csv
#a,b
#9,6
#6,4

#c.csv
#a,b
#4,3
#7,0

files = glob.glob('files/*.csv')
dfs = [pd.read_csv(fp) for fp in files]

#duplicated index inherited from each Dataframe
df = pd.concat(dfs)
print (df)
   a  b
0  1  2
1  5  8
0  9  6
1  6  4
0  4  3
1  7  0
#'reseting' index
df = pd.concat(dfs, ignore_index=True)
print (df)
   a  b
0  1  2
1  5  8
2  9  6
3  6  4
4  4  3
5  7  0
#concat by columns
df1 = pd.concat(dfs, axis=1)
print (df1)
   a  b  a  b  a  b
0  1  2  9  6  4  3
1  5  8  6  4  7  0
#reset column names
df1 = pd.concat(dfs, axis=1, ignore_index=True)
print (df1)
   0  1  2  3  4  5
0  1  2  9  6  4  3
1  5  8  6  4  7  0

Leer en trozos

import pandas as pd    

chunksize = [n]
for chunk in pd.read_csv(filename, chunksize=chunksize):
    process(chunk)
    delete(chunk)

Guardar en archivo CSV

Guardar con los parámetros por defecto:

df.to_csv(file_name)

Escribir columnas específicas:

df.to_csv(file_name, columns =['col'])

El delimitador de falla es ',' - para cambiarlo:

df.to_csv(file_name,sep="|")

Escribir sin el encabezado:

df.to_csv(file_name, header=False)

Escribir con un encabezado dado:

df.to_csv(file_name, header = ['A','B','C',...]

Para usar una codificación específica (por ejemplo, 'utf-8') use el argumento de codificación:

df.to_csv (nombre_archivo, codificación = 'utf-8')

Análisis de columnas de fecha con read_csv

Las fechas siempre tienen un formato diferente, se pueden analizar utilizando una función específica parse_dates.

Esta entrada.csv :

2016 06 10 20:30:00    foo
2016 07 11 19:45:30    bar
2013 10 12 4:30:00     foo

Se puede analizar de esta manera:

mydateparser = lambda x: pd.datetime.strptime(x, "%Y %m %d %H:%M:%S")
df = pd.read_csv("file.csv", sep='\t', names=['date_column', 'other_column'], parse_dates=['date_column'], date_parser=mydateparser)

El argumento parse_dates es la columna a analizar
date_parser es la función del analizador

Lea y combine varios archivos CSV (con la misma estructura) en un DF

import os
import glob
import pandas as pd

def get_merged_csv(flist, **kwargs):
    return pd.concat([pd.read_csv(f, **kwargs) for f in flist], ignore_index=True)

path = 'C:/Users/csvfiles'
fmask = os.path.join(path, '*mask*.csv')

df = get_merged_csv(glob.glob(fmask), index_col=None, usecols=['col1', 'col3'])

print(df.head())

Si desea combinar archivos CSV horizontalmente (agregando columnas), use axis=1 cuando llame a la función pd.concat() :

def merged_csv_horizontally(flist, **kwargs):
    return pd.concat([pd.read_csv(f, **kwargs) for f in flist], axis=1)

Leyendo el archivo cvs en un marco de datos pandas cuando no hay una fila de encabezado

Si el archivo no contiene una fila de encabezado,

Expediente:

1;str_data;12;1.4
3;str_data;22;42.33
4;str_data;2;3.44
2;str_data;43;43.34

7; str_data; 25; 23.32

puede utilizar los names palabras clave para proporcionar nombres de columna:

df = pandas.read_csv('data_file.csv', sep=';', index_col=0,
                     skip_blank_lines=True, names=['a', 'b', 'c'])

df
Out: 
           a   b      c
1   str_data  12   1.40
3   str_data  22  42.33
4   str_data   2   3.44
2   str_data  43  43.34
7   str_data  25  23.32

Usando HDFStore

import string
import numpy as np
import pandas as pd

Generar muestra DF con diversos tipos.

df = pd.DataFrame({
     'int32':    np.random.randint(0, 10**6, 10),
     'int64':    np.random.randint(10**7, 10**9, 10).astype(np.int64)*10,
     'float':    np.random.rand(10),
     'string':   np.random.choice([c*10 for c in string.ascii_uppercase], 10),
     })

In [71]: df
Out[71]:
      float   int32       int64      string
0  0.649978  848354  5269162190  DDDDDDDDDD
1  0.346963  490266  6897476700  OOOOOOOOOO
2  0.035069  756373  6711566750  ZZZZZZZZZZ
3  0.066692  957474  9085243570  FFFFFFFFFF
4  0.679182  665894  3750794810  MMMMMMMMMM
5  0.861914  630527  6567684430  TTTTTTTTTT
6  0.697691  825704  8005182860  FFFFFFFFFF
7  0.474501  942131  4099797720  QQQQQQQQQQ
8  0.645817  951055  8065980030  VVVVVVVVVV
9  0.083500  349709  7417288920  EEEEEEEEEE

hacer un DF más grande (10 * 100.000 = 1.000.000 filas)

df = pd.concat([df] * 10**5, ignore_index=True)

crear (o abrir un archivo HDFStore existente)

store = pd.HDFStore('d:/temp/example.h5')

guarde nuestro marco de datos en el archivo `h5` (HDFStore), indexando [int32, int64, string] columnas:

store.append('store_key', df, data_columns=['int32','int64','string'])

Mostrar detalles de HDFStore

In [78]: store.get_storer('store_key').table
Out[78]:
/store_key/table (Table(10,)) ''
  description := {
  "index": Int64Col(shape=(), dflt=0, pos=0),
  "values_block_0": Float64Col(shape=(1,), dflt=0.0, pos=1),
  "int32": Int32Col(shape=(), dflt=0, pos=2),
  "int64": Int64Col(shape=(), dflt=0, pos=3),
  "string": StringCol(itemsize=10, shape=(), dflt=b'', pos=4)}
  byteorder := 'little'
  chunkshape := (1724,)
  autoindex := True
  colindexes := {
    "index": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "int32": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "string": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "int64": Index(6, medium, shuffle, zlib(1)).is_csi=False}

mostrar columnas indexadas

In [80]: store.get_storer('store_key').table.colindexes
Out[80]:
{
    "int32": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "index": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "string": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "int64": Index(6, medium, shuffle, zlib(1)).is_csi=False}

cerrar (vaciar al disco) nuestro archivo de tienda

store.close()

Lea el registro de acceso de Nginx (varias cotillas)

Para varias cotillas use expresiones regulares en lugar de sep:

df = pd.read_csv(log_file,
              sep=r'\s(?=(?:[^"]*"[^"]*")*[^"]*$)(?![^\[]*\])',
              engine='python',
              usecols=[0, 3, 4, 5, 6, 7, 8],
              names=['ip', 'time', 'request', 'status', 'size', 'referer', 'user_agent'],
              na_values='-',
              header=None
                )

Modified text is an extract of the original Stack Overflow Documentation

Licenciado bajo CC BY-SA 3.0

No afiliado a Stack Overflow

pandas
Herramientas de Pandas IO (leer y guardar conjuntos de datos)

Buscar..

Observaciones

Leyendo el archivo csv en DataFrame

Expediente:

Código:

Salida:

Algunos argumentos útiles:

Guardado básico en un archivo csv

Fechas de análisis al leer de CSV

Hoja de cálculo para dictado de DataFrames

Lee una hoja específica

Prueba de read_csv

Lista de comprensión

Leer en trozos

Guardar en archivo CSV

Análisis de columnas de fecha con read_csv

Lea y combine varios archivos CSV (con la misma estructura) en un DF

Leyendo el archivo cvs en un marco de datos pandas cuando no hay una fila de encabezado

Usando HDFStore

Generar muestra DF con diversos tipos.

hacer un DF más grande (10 * 100.000 = 1.000.000 filas)

crear (o abrir un archivo HDFStore existente)

guarde nuestro marco de datos en el archivo `h5` (HDFStore), indexando [int32, int64, string] columnas:

Mostrar detalles de HDFStore

mostrar columnas indexadas

cerrar (vaciar al disco) nuestro archivo de tienda

Lea el registro de acceso de Nginx (varias cotillas)

Observaciones

Leyendo el archivo csv en DataFrame

Expediente:

Código:

Salida:

Algunos argumentos útiles:

Guardado básico en un archivo csv

Fechas de análisis al leer de CSV

Hoja de cálculo para dictado de DataFrames

Lee una hoja específica

Prueba de read_csv

Lista de comprensión

Leer en trozos

Guardar en archivo CSV

Análisis de columnas de fecha con read_csv

Lea y combine varios archivos CSV (con la misma estructura) en un DF

Leyendo el archivo cvs en un marco de datos pandas cuando no hay una fila de encabezado

Usando HDFStore

Generar muestra DF con diversos tipos.

hacer un DF más grande (10 * 100.000 = 1.000.000 filas)

crear (o abrir un archivo HDFStore existente)

guarde nuestro marco de datos en el archivo h5 (HDFStore), indexando [int32, int64, string] columnas:

Mostrar detalles de HDFStore

mostrar columnas indexadas

cerrar (vaciar al disco) nuestro archivo de tienda

Lea el registro de acceso de Nginx (varias cotillas)

guarde nuestro marco de datos en el archivo `h5` (HDFStore), indexando [int32, int64, string] columnas: