pandas => Indicizzazione e selezione dei dati

Seleziona colonna per etichetta

# Create a sample DF
df = pd.DataFrame(np.random.randn(5, 3), columns=list('ABC'))

# Show DF
df
          A         B         C
0 -0.467542  0.469146 -0.861848
1 -0.823205 -0.167087 -0.759942
2 -1.508202  1.361894 -0.166701
3  0.394143 -0.287349 -0.978102
4 -0.160431  1.054736 -0.785250

# Select column using a single label, 'A'
df['A']
0   -0.467542
1   -0.823205
2   -1.508202
3    0.394143
4   -0.160431

# Select multiple columns using an array of labels, ['A', 'C']
df[['A', 'C']]
          A         C
0 -0.467542 -0.861848
1 -0.823205 -0.759942
2 -1.508202 -0.166701
3  0.394143 -0.978102
4 -0.160431 -0.785250

Ulteriori dettagli su: http://pandas.pydata.org/pandas-docs/version/0.18.0/indexing.html#selection-by-label

Seleziona per posizione

Il iloc (abbreviazione di posizione intera ) consente di selezionare le righe di un dataframe in base al loro indice di posizione. In questo modo è possibile suddividere i dataframes proprio come si fa con l'affettamento delle liste di Python.

df = pd.DataFrame([[11, 22], [33, 44], [55, 66]], index=list("abc"))

df
# Out:
#     0   1
# a  11  22
# b  33  44
# c  55  66

df.iloc[0]  # the 0th index (row)
# Out:
# 0    11
# 1    22
# Name: a, dtype: int64

df.iloc[1]  # the 1st index (row)
# Out:
# 0    33
# 1    44
# Name: b, dtype: int64

df.iloc[:2] # the first 2 rows
#     0   1
# a  11  22
# b  33  44

df[::-1]    # reverse order of rows
#     0   1
# c  55  66
# b  33  44
# a  11  22

La posizione della riga può essere combinata con la posizione della colonna

df.iloc[:, 1]  # the 1st column
# Out[15]:
# a    22
# b    44
# c    66
# Name: 1, dtype: int64

Vedi anche: Selezione per posizione

Affettare con etichette

Quando si usano le etichette, sia l'inizio che l'arresto sono inclusi nei risultati.

import pandas as pd
import numpy as np
np.random.seed(5)
df = pd.DataFrame(np.random.randint(100, size=(5, 5)), columns = list("ABCDE"), 
                  index = ["R" + str(i) for i in range(5)])

# Out: 
#      A   B   C   D   E
# R0  99  78  61  16  73
# R1   8  62  27  30  80
# R2   7  76  15  53  80
# R3  27  44  77  75  65
# R4  47  30  84  86  18

Righe da R0 a R2 :

df.loc['R0':'R2']
# Out: 
#      A   B   C   D   E
# R0   9  41  62   1  82
# R1  16  78   5  58   0
# R2  80   4  36  51  27

Nota come loc distingue da iloc perché iloc esclude l'indice finale

df.loc['R0':'R2'] # rows labelled R0, R1, R2
# Out: 
#      A   B   C   D   E
# R0   9  41  62   1  82
# R1  16  78   5  58   0
# R2  80   4  36  51  27


# df.iloc[0:2] # rows indexed by 0, 1
#      A   B   C   D   E
# R0  99  78  61  16  73
# R1   8  62  27  30  80

Colonne da C a E :

df.loc[:, 'C':'E']
# Out: 
#      C   D   E
# R0  62   1  82
# R1   5  58   0
# R2  36  51  27
# R3  68  38  83
# R4   7  30  62

Posizione mista e selezione basata sull'etichetta

dataframe:

import pandas as pd
import numpy as np
np.random.seed(5)
df = pd.DataFrame(np.random.randint(100, size=(5, 5)), columns = list("ABCDE"), 
                  index = ["R" + str(i) for i in range(5)])


df
Out[12]: 
     A   B   C   D   E
R0  99  78  61  16  73
R1   8  62  27  30  80
R2   7  76  15  53  80
R3  27  44  77  75  65
R4  47  30  84  86  18

Seleziona righe per posizione e colonne per etichetta:

df.ix[1:3, 'C':'E']
Out[19]: 
     C   D   E
R1   5  58   0
R2  36  51  27

Se l'indice è intero, .ix utilizzerà le etichette anziché le posizioni:

df.index = np.arange(5, 10)

df
Out[22]: 
    A   B   C   D   E
5   9  41  62   1  82
6  16  78   5  58   0
7  80   4  36  51  27
8  31   2  68  38  83
9  19  18   7  30  62

#same call returns an empty DataFrame because now the index is integer
df.ix[1:3, 'C':'E']
Out[24]: 
Empty DataFrame
Columns: [C, D, E]
Index: []

Indicizzazione booleana

Si possono selezionare righe e colonne di un dataframe usando array booleani.

import pandas as pd
import numpy as np
np.random.seed(5)
df = pd.DataFrame(np.random.randint(100, size=(5, 5)), columns = list("ABCDE"), 
                  index = ["R" + str(i) for i in range(5)])
print (df)
#      A   B   C   D   E
# R0  99  78  61  16  73
# R1   8  62  27  30  80
# R2   7  76  15  53  80
# R3  27  44  77  75  65
# R4  47  30  84  86  18

mask = df['A'] > 10
print (mask)
# R0     True
# R1    False
# R2    False
# R3     True
# R4     True
# Name: A, dtype: bool

print (df[mask])
#      A   B   C   D   E
# R0  99  78  61  16  73
# R3  27  44  77  75  65
# R4  47  30  84  86  18

print (df.ix[mask, 'C'])
# R0    61
# R3    77
# R4    84
# Name: C, dtype: int32

print(df.ix[mask, ['C', 'D']])
#      C   D
# R0  61  16
# R3  77  75
# R4  84  86

Altro nella documentazione di panda .

Filtraggio delle colonne (selezionando "interessante", non necessario, utilizzando RegEx, ecc.)

genera campione DF

In [39]: df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=['a10','a20','a25','b','c','d'])

In [40]: df
Out[40]:
   a10  a20  a25  b  c  d
0    2    3    7  5  4  7
1    3    1    5  7  2  6
2    7    4    9  0  8  7
3    5    8    8  9  6  8
4    8    1    0  4  4  9

mostra colonne contenenti la lettera 'a'

In [41]: df.filter(like='a')
Out[41]:
   a10  a20  a25
0    2    3    7
1    3    1    5
2    7    4    9
3    5    8    8
4    8    1    0

Mostra colonne utilizzando il filtro RegEx `(b|c|d)` - `b` o `c` o `d` :

In [42]: df.filter(regex='(b|c|d)')
Out[42]:
   b  c  d
0  5  4  7
1  7  2  6
2  0  8  7
3  9  6  8
4  4  4  9

mostra tutte le colonne tranne quelle che iniziano con `a` (in altre parole rimuovi / rimuovi tutte le colonne che soddisfano la RegEx data)

In [43]: df.ix[:, ~df.columns.str.contains('^a')]
Out[43]:
   b  c  d
0  5  4  7
1  7  2  6
2  0  8  7
3  9  6  8
4  4  4  9

Filtrare / selezionare le righe usando il metodo `.query ()`

import pandas as pd

generare DF casuale

df = pd.DataFrame(np.random.randint(0,10,size=(10, 3)), columns=list('ABC'))

In [16]: print(df)
   A  B  C
0  4  1  4
1  0  2  0
2  7  8  8
3  2  1  9
4  7  3  8
5  4  0  7
6  1  5  5
7  6  7  8
8  6  7  3
9  6  4  5

selezionare le righe in cui i valori nella colonna `A > 2` e i valori nella colonna `B < 5`

In [18]: df.query('A > 2 and B < 5')
Out[18]:
   A  B  C
0  4  1  4
4  7  3  8
5  4  0  7
9  6  4  5

usando il metodo `.query()` con le variabili per il filtraggio

In [23]: B_filter = [1,7]

In [24]: df.query('B == @B_filter')
Out[24]:
   A  B  C
0  4  1  4
3  2  1  9
7  6  7  8
8  6  7  3

In [25]: df.query('@B_filter in B')
Out[25]:
   A  B  C
0  4  1  4

Affettatura dipendente dal percorso

Potrebbe essere necessario attraversare gli elementi di una serie o le righe di un dataframe in modo che l'elemento successivo o la riga successiva dipendano dall'elemento o dalla riga precedentemente selezionati. Questo è chiamato path dependency.

Si consideri il seguente serie temporale s con frequenza irregolare.

#starting python community conventions
import numpy    as np
import pandas   as pd

# n is number of observations
n = 5000

day = pd.to_datetime(['2013-02-06'])
# irregular seconds spanning 28800 seconds (8 hours)
seconds = np.random.rand(n) * 28800 * pd.Timedelta(1, 's')
# start at 8 am
start = pd.offsets.Hour(8)
# irregular timeseries
tidx = day + start + seconds
tidx = tidx.sort_values()

s = pd.Series(np.random.randn(n), tidx, name='A').cumsum()
s.plot();

Assumiamo una condizione dipendente dal percorso. A partire dal primo membro della serie, voglio prendere ogni elemento successivo in modo tale che la differenza assoluta tra quell'elemento e l'elemento corrente sia maggiore o uguale a x .

Risolveremo questo problema usando i generatori Python.

Funzione del generatore

def mover(s, move_size=10):
    """Given a reference, find next value with
    an absolute difference >= move_size"""
    ref = None
    for i, v in s.iteritems():
        if ref is None or (abs(ref - v) >= move_size):
            yield i, v
            ref = v

Quindi possiamo definire una nuova serie si moves modo

moves = pd.Series({i:v for i, v in mover(s, move_size=10)},
                  name='_{}_'.format(s.name))

Tracciandoli entrambi

moves.plot(legend=True)
s.plot(legend=True)

L'analogo per i dataframes sarebbe:

def mover_df(df, col, move_size=2):
    ref = None
    for i, row in df.iterrows():
        if ref is None or (abs(ref - row.loc[col]) >= move_size):
            yield row
            ref = row.loc[col]

df = s.to_frame()
moves_df = pd.concat(mover_df(df, 'A', 10), axis=1).T

moves_df.A.plot(label='_A_', legend=True)
df.A.plot(legend=True)

Ottieni la prima / ultima n file di un dataframe

Per visualizzare il primo o l'ultimo record di un dataframe, puoi utilizzare i metodi head e tail

Per restituire le prime n righe utilizzare DataFrame.head([n])

df.head(n)

Per restituire le ultime n righe utilizzare DataFrame.tail([n])

df.tail(n)

Senza l'argomento n, queste funzioni restituiscono 5 righe.

Si noti che la notazione di sezione per la head / tail sarebbe:

df[:10]  # same as df.head(10)
df[-10:] # same as df.tail(10)

Seleziona righe distinte su dataframe

Permettere

df = pd.DataFrame({'col_1':['A','B','A','B','C'], 'col_2':[3,4,3,5,6]})
df
# Output:
#   col_1  col_2
# 0     A      3
# 1     B      4
# 2     A      3
# 3     B      5
# 4     C      6

Per ottenere i valori distinti in col_1 puoi utilizzare Series.unique()

df['col_1'].unique()
# Output:
# array(['A', 'B', 'C'], dtype=object)

Ma Series.unique () funziona solo per una singola colonna.

Per simulare la selezione unica di col_1, col_2 di SQL puoi usare DataFrame.drop_duplicates() :

df.drop_duplicates()
#   col_1  col_2
# 0     A      3
# 1     B      4
# 3     B      5
# 4     C      6

Questo ti porterà tutte le righe univoche nel dataframe. Quindi se

df = pd.DataFrame({'col_1':['A','B','A','B','C'], 'col_2':[3,4,3,5,6], 'col_3':[0,0.1,0.2,0.3,0.4]})
df
# Output:
#   col_1  col_2  col_3
# 0     A      3    0.0
# 1     B      4    0.1
# 2     A      3    0.2
# 3     B      5    0.3
# 4     C      6    0.4

df.drop_duplicates()
#   col_1  col_2  col_3
# 0     A      3    0.0
# 1     B      4    0.1
# 2     A      3    0.2
# 3     B      5    0.3
# 4     C      6    0.4

Per specificare le colonne da considerare quando si selezionano i record univoci, passarli come argomenti

df = pd.DataFrame({'col_1':['A','B','A','B','C'], 'col_2':[3,4,3,5,6], 'col_3':[0,0.1,0.2,0.3,0.4]})
df.drop_duplicates(['col_1','col_2'])
# Output:
#   col_1  col_2  col_3
# 0     A      3    0.0
# 1     B      4    0.1
# 3     B      5    0.3
# 4     C      6    0.4

# skip last column
# df.drop_duplicates(['col_1','col_2'])[['col_1','col_2']]
#   col_1  col_2
# 0     A      3
# 1     B      4
# 3     B      5
# 4     C      6

Fonte: come "selezionare distinti" tra più colonne di frame di dati nei panda? .

Filtra le righe con dati mancanti (NaN, None, NaT)

Se hai un dataframe con dati mancanti ( NaN , pd.NaT , None ) puoi filtrare le righe incomplete

df = pd.DataFrame([[0,1,2,3],
                  [None,5,None,pd.NaT],
                  [8,None,10,None],
                  [11,12,13,pd.NaT]],columns=list('ABCD'))
df
# Output:    
#     A   B   C     D
# 0   0   1   2     3
# 1 NaN   5 NaN   NaT
# 2   8 NaN  10  None
# 3  11  12  13   NaT

DataFrame.dropna elimina tutte le righe contenenti almeno un campo con dati mancanti

df.dropna()
# Output:
#    A  B  C  D
# 0  0  1  2  3

Per eliminare semplicemente le righe che mancano i dati nelle colonne specificate utilizzare il subset

df.dropna(subset=['C'])
# Output:
#     A   B   C     D
# 0   0   1   2     3
# 2   8 NaN  10  None
# 3  11  12  13   NaT

Utilizzare l'opzione inplace = True per la sostituzione sul posto con il frame filtrato.

Modified text is an extract of the original Stack Overflow Documentation

Autorizzato sotto CC BY-SA 3.0

Non affiliato con Stack Overflow

pandas
Indicizzazione e selezione dei dati

Ricerca…

Seleziona colonna per etichetta

Seleziona per posizione

Affettare con etichette

Posizione mista e selezione basata sull'etichetta

Indicizzazione booleana

Filtraggio delle colonne (selezionando "interessante", non necessario, utilizzando RegEx, ecc.)

genera campione DF

mostra colonne contenenti la lettera 'a'

Mostra colonne utilizzando il filtro RegEx `(b|c|d)` - `b` o `c` o `d` :

mostra tutte le colonne tranne quelle che iniziano con `a` (in altre parole rimuovi / rimuovi tutte le colonne che soddisfano la RegEx data)

Filtrare / selezionare le righe usando il metodo `.query ()`

generare DF casuale

selezionare le righe in cui i valori nella colonna `A > 2` e i valori nella colonna `B < 5`

usando il metodo `.query()` con le variabili per il filtraggio

Affettatura dipendente dal percorso

Ottieni la prima / ultima n file di un dataframe

Seleziona righe distinte su dataframe

Filtra le righe con dati mancanti (NaN, None, NaT)

Seleziona colonna per etichetta

Seleziona per posizione

Affettare con etichette

Posizione mista e selezione basata sull'etichetta

Indicizzazione booleana

Filtraggio delle colonne (selezionando "interessante", non necessario, utilizzando RegEx, ecc.)

genera campione DF

mostra colonne contenenti la lettera 'a'

Mostra colonne utilizzando il filtro RegEx (b|c|d) - b o c o d :

mostra tutte le colonne tranne quelle che iniziano con a (in altre parole rimuovi / rimuovi tutte le colonne che soddisfano la RegEx data)

Filtrare / selezionare le righe usando il metodo `.query ()`

generare DF casuale

selezionare le righe in cui i valori nella colonna A > 2 e i valori nella colonna B < 5

usando il metodo .query() con le variabili per il filtraggio

Affettatura dipendente dal percorso

Ottieni la prima / ultima n file di un dataframe

Seleziona righe distinte su dataframe

Filtra le righe con dati mancanti (NaN, None, NaT)

Mostra colonne utilizzando il filtro RegEx `(b|c|d)` - `b` o `c` o `d` :

mostra tutte le colonne tranne quelle che iniziano con `a` (in altre parole rimuovi / rimuovi tutte le colonne che soddisfano la RegEx data)

selezionare le righe in cui i valori nella colonna `A > 2` e i valori nella colonna `B < 5`

usando il metodo `.query()` con le variabili per il filtraggio