pandas => Strumenti IO di Pandas (lettura e salvataggio di set di dati)

Osservazioni

La documentazione ufficiale di panda include una pagina su IO Tools con un elenco di funzioni rilevanti per leggere e scrivere su file, oltre ad alcuni esempi e parametri comuni.

Lettura file CSV in DataFrame

Esempio per leggere il file data_file.csv come:

File:

index,header1,header2,header3
1,str_data,12,1.4
3,str_data,22,42.33
4,str_data,2,3.44
2,str_data,43,43.34

7, str_data, 25, 23.32

Codice:

pd.read_csv('data_file.csv')

Produzione:

   index    header1  header2  header3
0      1   str_data       12     1.40
1      3   str_data       22    42.33
2      4   str_data        2     3.44
3      2   str_data       43    43.34
4      7   str_data       25    23.32

Alcuni argomenti utili:

sep Il delimitatore di campo predefinito è una virgola , . Usa questa opzione se hai bisogno di un delimitatore diverso, ad esempio pd.read_csv('data_file.csv', sep=';')

index_col Con index_col = n ( n un intero) dici ai panda di utilizzare la colonna n per indicizzare il DataFrame. Nell'esempio sopra:

pd.read_csv('data_file.csv',  index_col=0)

Produzione:

          header1  header2  header3
index
 1       str_data       12     1.40
 3       str_data       22    42.33
 4       str_data        2     3.44
 2       str_data       43    43.34
 7       str_data       25    23.32

skip_blank_lines Per impostazione predefinita, le righe vuote vengono saltate. Usa skip_blank_lines=False per includere righe vuote (saranno riempite con valori NaN )

pd.read_csv('data_file.csv',  index_col=0,skip_blank_lines=False)

Produzione:

         header1  header2  header3
index
 1      str_data       12     1.40
 3      str_data       22    42.33
 4      str_data        2     3.44
 2      str_data       43    43.34
NaN          NaN      NaN      NaN
 7      str_data       25    23.32

parse_dates Utilizzare questa opzione per analizzare i dati della data.

File:

date_begin;date_end;header3;header4;header5
1/1/2017;1/10/2017;str_data;1001;123,45
2/1/2017;2/10/2017;str_data;1001;67,89
3/1/2017;3/10/2017;str_data;1001;0

Codice per analizzare le colonne 0 e 1 come date:

pd.read_csv('f.csv', sep=';', parse_dates=[0,1])

Produzione:

  date_begin   date_end   header3  header4 header5
0 2017-01-01 2017-01-10  str_data     1001  123,45
1 2017-02-01 2017-02-10  str_data     1001   67,89
2 2017-03-01 2017-03-10  str_data     1001       0

Per impostazione predefinita, il formato della data viene dedotto. Se si desidera specificare un formato di data che è possibile utilizzare per esempio

dateparse = lambda x: pd.datetime.strptime(x, '%d/%m/%Y')
pd.read_csv('f.csv', sep=';',parse_dates=[0,1],date_parser=dateparse)

Produzione:

  date_begin   date_end   header3  header4 header5
0 2017-01-01 2017-10-01  str_data     1001  123,45
1 2017-01-02 2017-10-02  str_data     1001   67,89
2 2017-01-03 2017-10-03  str_data     1001       0

Ulteriori informazioni sui parametri della funzione sono disponibili nella documentazione ufficiale .

Salvataggio di base in un file CSV

raw_data = {'first_name': ['John', 'Jane', 'Jim'],
            'last_name': ['Doe', 'Smith', 'Jones'],
            'department': ['Accounting', 'Sales', 'Engineering'],}
df = pd.DataFrame(raw_data,columns=raw_data.keys())
df.to_csv('data_file.csv')

Date di analisi durante la lettura da CSV

È possibile specificare una colonna che contenga date, in modo che i panda le analizzino automaticamente durante la lettura dal CSV

pandas.read_csv('data_file.csv', parse_dates=['date_column'])

Foglio di calcolo a dettare di DataFrames

with pd.ExcelFile('path_to_file.xls) as xl:
    d = {sheet_name: xl.parse(sheet_name) for sheet_name in xl.sheet_names}

Leggi un foglio specifico

pd.read_excel('path_to_file.xls', sheetname='Sheet1')

Ci sono molte opzioni di analisi per read_excel (simile alle opzioni in read_csv .

pd.read_excel('path_to_file.xls',
              sheetname='Sheet1', header=[0, 1, 2],
              skiprows=3, index_col=0)  # etc.

Testare read_csv

import pandas as pd
import io

temp=u"""index; header1; header2; header3
1; str_data; 12; 1.4
3; str_data; 22; 42.33
4; str_data; 2; 3.44
2; str_data; 43; 43.34
7; str_data; 25; 23.32"""
#after testing replace io.StringIO(temp) to filename
df = pd.read_csv(io.StringIO(temp),  
                 sep = ';', 
                 index_col = 0,
                 skip_blank_lines = True)
print (df)
         header1   header2   header3
index                               
1       str_data        12      1.40
3       str_data        22     42.33
4       str_data         2      3.44
2       str_data        43     43.34
7       str_data        25     23.32

Comprensione delle liste

Tutti i file sono in files cartelle. Prima di creare la lista dei DataFrames e poi concat loro:

import pandas as pd
import glob

#a.csv
#a,b
#1,2
#5,8

#b.csv
#a,b
#9,6
#6,4

#c.csv
#a,b
#4,3
#7,0

files = glob.glob('files/*.csv')
dfs = [pd.read_csv(fp) for fp in files]

#duplicated index inherited from each Dataframe
df = pd.concat(dfs)
print (df)
   a  b
0  1  2
1  5  8
0  9  6
1  6  4
0  4  3
1  7  0
#'reseting' index
df = pd.concat(dfs, ignore_index=True)
print (df)
   a  b
0  1  2
1  5  8
2  9  6
3  6  4
4  4  3
5  7  0
#concat by columns
df1 = pd.concat(dfs, axis=1)
print (df1)
   a  b  a  b  a  b
0  1  2  9  6  4  3
1  5  8  6  4  7  0
#reset column names
df1 = pd.concat(dfs, axis=1, ignore_index=True)
print (df1)
   0  1  2  3  4  5
0  1  2  9  6  4  3
1  5  8  6  4  7  0

Leggi in blocchi

import pandas as pd    

chunksize = [n]
for chunk in pd.read_csv(filename, chunksize=chunksize):
    process(chunk)
    delete(chunk)

Salva nel file CSV

Salva con parametri predefiniti:

df.to_csv(file_name)

Scrivi colonne specifiche:

df.to_csv(file_name, columns =['col'])

Il delimitatore Difault è "," - per cambiarlo:

df.to_csv(file_name,sep="|")

Scrivi senza l'intestazione:

df.to_csv(file_name, header=False)

Scrivi con un dato header:

df.to_csv(file_name, header = ['A','B','C',...]

Per usare una codifica specifica (es. 'Utf-8') usa l'argomento di codifica:

df.to_csv (file_name, encoding = 'utf-8')

Parsing date columns with read_csv

Le date hanno sempre un formato diverso, possono essere analizzate utilizzando una specifica funzione parse_dates.

Questo input.csv :

2016 06 10 20:30:00    foo
2016 07 11 19:45:30    bar
2013 10 12 4:30:00     foo

Può essere analizzato in questo modo:

mydateparser = lambda x: pd.datetime.strptime(x, "%Y %m %d %H:%M:%S")
df = pd.read_csv("file.csv", sep='\t', names=['date_column', 'other_column'], parse_dates=['date_column'], date_parser=mydateparser)

L' argomento parse_dates è la colonna da analizzare
date_parser è la funzione parser

Leggi e unisci più file CSV (con la stessa struttura) in un unico DF

import os
import glob
import pandas as pd

def get_merged_csv(flist, **kwargs):
    return pd.concat([pd.read_csv(f, **kwargs) for f in flist], ignore_index=True)

path = 'C:/Users/csvfiles'
fmask = os.path.join(path, '*mask*.csv')

df = get_merged_csv(glob.glob(fmask), index_col=None, usecols=['col1', 'col3'])

print(df.head())

Se si desidera unire i file CSV orizzontalmente (aggiungendo colonne), utilizzare axis=1 quando si chiama la funzione pd.concat() :

def merged_csv_horizontally(flist, **kwargs):
    return pd.concat([pd.read_csv(f, **kwargs) for f in flist], axis=1)

Leggendo il file cvs in un frame di dati panda quando non c'è una riga di intestazione

Se il file non contiene una riga di intestazione,

File:

1;str_data;12;1.4
3;str_data;22;42.33
4;str_data;2;3.44
2;str_data;43;43.34

7; str_data; 25; 23.32

puoi utilizzare i names parole chiave per fornire i nomi delle colonne:

df = pandas.read_csv('data_file.csv', sep=';', index_col=0,
                     skip_blank_lines=True, names=['a', 'b', 'c'])

df
Out: 
           a   b      c
1   str_data  12   1.40
3   str_data  22  42.33
4   str_data   2   3.44
2   str_data  43  43.34
7   str_data  25  23.32

Utilizzando HDFStore

import string
import numpy as np
import pandas as pd

genera DF di esempio con vari tipi di dtype

df = pd.DataFrame({
     'int32':    np.random.randint(0, 10**6, 10),
     'int64':    np.random.randint(10**7, 10**9, 10).astype(np.int64)*10,
     'float':    np.random.rand(10),
     'string':   np.random.choice([c*10 for c in string.ascii_uppercase], 10),
     })

In [71]: df
Out[71]:
      float   int32       int64      string
0  0.649978  848354  5269162190  DDDDDDDDDD
1  0.346963  490266  6897476700  OOOOOOOOOO
2  0.035069  756373  6711566750  ZZZZZZZZZZ
3  0.066692  957474  9085243570  FFFFFFFFFF
4  0.679182  665894  3750794810  MMMMMMMMMM
5  0.861914  630527  6567684430  TTTTTTTTTT
6  0.697691  825704  8005182860  FFFFFFFFFF
7  0.474501  942131  4099797720  QQQQQQQQQQ
8  0.645817  951055  8065980030  VVVVVVVVVV
9  0.083500  349709  7417288920  EEEEEEEEEE

fare un DF più grande (10 * 100.000 = 1.000.000 di righe)

df = pd.concat([df] * 10**5, ignore_index=True)

creare (o aprire un file HDFStore esistente)

store = pd.HDFStore('d:/temp/example.h5')

salva il nostro frame di dati nel file `h5` (HDFStore), indicizzando le colonne [int32, int64, string]:

store.append('store_key', df, data_columns=['int32','int64','string'])

mostra dettagli HDFStore

In [78]: store.get_storer('store_key').table
Out[78]:
/store_key/table (Table(10,)) ''
  description := {
  "index": Int64Col(shape=(), dflt=0, pos=0),
  "values_block_0": Float64Col(shape=(1,), dflt=0.0, pos=1),
  "int32": Int32Col(shape=(), dflt=0, pos=2),
  "int64": Int64Col(shape=(), dflt=0, pos=3),
  "string": StringCol(itemsize=10, shape=(), dflt=b'', pos=4)}
  byteorder := 'little'
  chunkshape := (1724,)
  autoindex := True
  colindexes := {
    "index": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "int32": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "string": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "int64": Index(6, medium, shuffle, zlib(1)).is_csi=False}

mostra colonne indicizzate

In [80]: store.get_storer('store_key').table.colindexes
Out[80]:
{
    "int32": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "index": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "string": Index(6, medium, shuffle, zlib(1)).is_csi=False,
    "int64": Index(6, medium, shuffle, zlib(1)).is_csi=False}

chiudere (flush su disco) il nostro file di archivio

store.close()

Leggi il log di accesso di Nginx (più quotechar)

Per più quotechar utilizzare regex al posto di sep:

df = pd.read_csv(log_file,
              sep=r'\s(?=(?:[^"]*"[^"]*")*[^"]*$)(?![^\[]*\])',
              engine='python',
              usecols=[0, 3, 4, 5, 6, 7, 8],
              names=['ip', 'time', 'request', 'status', 'size', 'referer', 'user_agent'],
              na_values='-',
              header=None
                )

Modified text is an extract of the original Stack Overflow Documentation

Autorizzato sotto CC BY-SA 3.0

Non affiliato con Stack Overflow

pandas
Strumenti IO di Pandas (lettura e salvataggio di set di dati)

Ricerca…

Osservazioni

Lettura file CSV in DataFrame

File:

Codice:

Produzione:

Alcuni argomenti utili:

Salvataggio di base in un file CSV

Date di analisi durante la lettura da CSV

Foglio di calcolo a dettare di DataFrames

Leggi un foglio specifico

Testare read_csv

Comprensione delle liste

Leggi in blocchi

Salva nel file CSV

Parsing date columns with read_csv

Leggi e unisci più file CSV (con la stessa struttura) in un unico DF

Leggendo il file cvs in un frame di dati panda quando non c'è una riga di intestazione

Utilizzando HDFStore

genera DF di esempio con vari tipi di dtype

fare un DF più grande (10 * 100.000 = 1.000.000 di righe)

creare (o aprire un file HDFStore esistente)

salva il nostro frame di dati nel file `h5` (HDFStore), indicizzando le colonne [int32, int64, string]:

mostra dettagli HDFStore

mostra colonne indicizzate

chiudere (flush su disco) il nostro file di archivio

Leggi il log di accesso di Nginx (più quotechar)

Osservazioni

Lettura file CSV in DataFrame

File:

Codice:

Produzione:

Alcuni argomenti utili:

Salvataggio di base in un file CSV

Date di analisi durante la lettura da CSV

Foglio di calcolo a dettare di DataFrames

Leggi un foglio specifico

Testare read_csv

Comprensione delle liste

Leggi in blocchi

Salva nel file CSV

Parsing date columns with read_csv

Leggi e unisci più file CSV (con la stessa struttura) in un unico DF

Leggendo il file cvs in un frame di dati panda quando non c'è una riga di intestazione

Utilizzando HDFStore

genera DF di esempio con vari tipi di dtype

fare un DF più grande (10 * 100.000 = 1.000.000 di righe)

creare (o aprire un file HDFStore esistente)

salva il nostro frame di dati nel file h5 (HDFStore), indicizzando le colonne [int32, int64, string]:

mostra dettagli HDFStore

mostra colonne indicizzate

chiudere (flush su disco) il nostro file di archivio

Leggi il log di accesso di Nginx (più quotechar)

salva il nostro frame di dati nel file `h5` (HDFStore), indicizzando le colonne [int32, int64, string]: