pandas => Indexera och välja data

Välj kolumn efter etikett

# Create a sample DF
df = pd.DataFrame(np.random.randn(5, 3), columns=list('ABC'))

# Show DF
df
          A         B         C
0 -0.467542  0.469146 -0.861848
1 -0.823205 -0.167087 -0.759942
2 -1.508202  1.361894 -0.166701
3  0.394143 -0.287349 -0.978102
4 -0.160431  1.054736 -0.785250

# Select column using a single label, 'A'
df['A']
0   -0.467542
1   -0.823205
2   -1.508202
3    0.394143
4   -0.160431

# Select multiple columns using an array of labels, ['A', 'C']
df[['A', 'C']]
          A         C
0 -0.467542 -0.861848
1 -0.823205 -0.759942
2 -1.508202 -0.166701
3  0.394143 -0.978102
4 -0.160431 -0.785250

Ytterligare information på: http://pandas.pydata.org/pandas-docs/version/0.18.0/indexing.html#selection-by-label

Välj efter position

iloc (kort för heltalsläge ) gör det möjligt att välja raderna i ett dataram baserat på deras positionsindex. På så sätt kan man skära dataframe precis som man gör med Pythons listskärning.

df = pd.DataFrame([[11, 22], [33, 44], [55, 66]], index=list("abc"))

df
# Out:
#     0   1
# a  11  22
# b  33  44
# c  55  66

df.iloc[0]  # the 0th index (row)
# Out:
# 0    11
# 1    22
# Name: a, dtype: int64

df.iloc[1]  # the 1st index (row)
# Out:
# 0    33
# 1    44
# Name: b, dtype: int64

df.iloc[:2] # the first 2 rows
#     0   1
# a  11  22
# b  33  44

df[::-1]    # reverse order of rows
#     0   1
# c  55  66
# b  33  44
# a  11  22

Radplats kan kombineras med kolumnplats

df.iloc[:, 1]  # the 1st column
# Out[15]:
# a    22
# b    44
# c    66
# Name: 1, dtype: int64

Se även: Val efter position

Skivning med etiketter

När du använder etiketter ingår både start och stopp i resultaten.

import pandas as pd
import numpy as np
np.random.seed(5)
df = pd.DataFrame(np.random.randint(100, size=(5, 5)), columns = list("ABCDE"), 
                  index = ["R" + str(i) for i in range(5)])

# Out: 
#      A   B   C   D   E
# R0  99  78  61  16  73
# R1   8  62  27  30  80
# R2   7  76  15  53  80
# R3  27  44  77  75  65
# R4  47  30  84  86  18

Rader R0 till R2 :

df.loc['R0':'R2']
# Out: 
#      A   B   C   D   E
# R0   9  41  62   1  82
# R1  16  78   5  58   0
# R2  80   4  36  51  27

Lägg märke till hur loc skiljer sig från iloc eftersom iloc utesluter iloc

df.loc['R0':'R2'] # rows labelled R0, R1, R2
# Out: 
#      A   B   C   D   E
# R0   9  41  62   1  82
# R1  16  78   5  58   0
# R2  80   4  36  51  27


# df.iloc[0:2] # rows indexed by 0, 1
#      A   B   C   D   E
# R0  99  78  61  16  73
# R1   8  62  27  30  80

Kolumner C till E :

df.loc[:, 'C':'E']
# Out: 
#      C   D   E
# R0  62   1  82
# R1   5  58   0
# R2  36  51  27
# R3  68  38  83
# R4   7  30  62

Blandad position och etikettbaserat urval

DataFrame:

import pandas as pd
import numpy as np
np.random.seed(5)
df = pd.DataFrame(np.random.randint(100, size=(5, 5)), columns = list("ABCDE"), 
                  index = ["R" + str(i) for i in range(5)])


df
Out[12]: 
     A   B   C   D   E
R0  99  78  61  16  73
R1   8  62  27  30  80
R2   7  76  15  53  80
R3  27  44  77  75  65
R4  47  30  84  86  18

Välj rader efter position och kolumner efter etikett:

df.ix[1:3, 'C':'E']
Out[19]: 
     C   D   E
R1   5  58   0
R2  36  51  27

Om indexet är heltal kommer .ix att använda etiketter snarare än positioner:

df.index = np.arange(5, 10)

df
Out[22]: 
    A   B   C   D   E
5   9  41  62   1  82
6  16  78   5  58   0
7  80   4  36  51  27
8  31   2  68  38  83
9  19  18   7  30  62

#same call returns an empty DataFrame because now the index is integer
df.ix[1:3, 'C':'E']
Out[24]: 
Empty DataFrame
Columns: [C, D, E]
Index: []

Booleska indexering

Man kan välja rader och kolumner i ett dataframe med booleska matriser.

import pandas as pd
import numpy as np
np.random.seed(5)
df = pd.DataFrame(np.random.randint(100, size=(5, 5)), columns = list("ABCDE"), 
                  index = ["R" + str(i) for i in range(5)])
print (df)
#      A   B   C   D   E
# R0  99  78  61  16  73
# R1   8  62  27  30  80
# R2   7  76  15  53  80
# R3  27  44  77  75  65
# R4  47  30  84  86  18

mask = df['A'] > 10
print (mask)
# R0     True
# R1    False
# R2    False
# R3     True
# R4     True
# Name: A, dtype: bool

print (df[mask])
#      A   B   C   D   E
# R0  99  78  61  16  73
# R3  27  44  77  75  65
# R4  47  30  84  86  18

print (df.ix[mask, 'C'])
# R0    61
# R3    77
# R4    84
# Name: C, dtype: int32

print(df.ix[mask, ['C', 'D']])
#      C   D
# R0  61  16
# R3  77  75
# R4  84  86

Mer i pandadokumentation .

Filtrera kolumner (välja "intressant", släppa onödigt, använda RegEx, etc.)

generera prov DF

In [39]: df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=['a10','a20','a25','b','c','d'])

In [40]: df
Out[40]:
   a10  a20  a25  b  c  d
0    2    3    7  5  4  7
1    3    1    5  7  2  6
2    7    4    9  0  8  7
3    5    8    8  9  6  8
4    8    1    0  4  4  9

visa kolumner som innehåller bokstaven 'a'

In [41]: df.filter(like='a')
Out[41]:
   a10  a20  a25
0    2    3    7
1    3    1    5
2    7    4    9
3    5    8    8
4    8    1    0

visa kolumner med RegEx-filter `(b|c|d)` - `b` eller `c` eller `d` :

In [42]: df.filter(regex='(b|c|d)')
Out[42]:
   b  c  d
0  5  4  7
1  7  2  6
2  0  8  7
3  9  6  8
4  4  4  9

visa alla kolumner utom de som börjar med `a` (i annat ord ta bort / släpp alla kolumner som uppfyller givet RegEx)

In [43]: df.ix[:, ~df.columns.str.contains('^a')]
Out[43]:
   b  c  d
0  5  4  7
1  7  2  6
2  0  8  7
3  9  6  8
4  4  4  9

Filtrera / välja rader med metoden `.fråga ()

import pandas as pd

generera slumpmässig DF

df = pd.DataFrame(np.random.randint(0,10,size=(10, 3)), columns=list('ABC'))

In [16]: print(df)
   A  B  C
0  4  1  4
1  0  2  0
2  7  8  8
3  2  1  9
4  7  3  8
5  4  0  7
6  1  5  5
7  6  7  8
8  6  7  3
9  6  4  5

välj rader där värden i kolumn `A > 2` och värden i kolumn `B < 5`

In [18]: df.query('A > 2 and B < 5')
Out[18]:
   A  B  C
0  4  1  4
4  7  3  8
5  4  0  7
9  6  4  5

med `.query()` -metod med variabler för filtrering

In [23]: B_filter = [1,7]

In [24]: df.query('B == @B_filter')
Out[24]:
   A  B  C
0  4  1  4
3  2  1  9
7  6  7  8
8  6  7  3

In [25]: df.query('@B_filter in B')
Out[25]:
   A  B  C
0  4  1  4

Bana beroende skivning

Det kan bli nödvändigt att korsa elementen i en serie eller raderna i ett dataram så att nästa element eller nästa rad är beroende av det tidigare valda elementet eller raden. Detta kallas vägberoende.

Betrakta följande tidsserien s med oregelbunden frekvens.

#starting python community conventions
import numpy    as np
import pandas   as pd

# n is number of observations
n = 5000

day = pd.to_datetime(['2013-02-06'])
# irregular seconds spanning 28800 seconds (8 hours)
seconds = np.random.rand(n) * 28800 * pd.Timedelta(1, 's')
# start at 8 am
start = pd.offsets.Hour(8)
# irregular timeseries
tidx = day + start + seconds
tidx = tidx.sort_values()

s = pd.Series(np.random.randn(n), tidx, name='A').cumsum()
s.plot();

Låt oss anta ett vägberoende villkor. Från och med den första medlemmen i serien, vill jag ta varje efterföljande element så att den absoluta skillnaden mellan det elementet och det aktuella elementet är större än eller lika med x .

Vi löser detta problem med pythongeneratorer.

Generatorfunktion

def mover(s, move_size=10):
    """Given a reference, find next value with
    an absolute difference >= move_size"""
    ref = None
    for i, v in s.iteritems():
        if ref is None or (abs(ref - v) >= move_size):
            yield i, v
            ref = v

Då kan vi definiera en ny moves så

moves = pd.Series({i:v for i, v in mover(s, move_size=10)},
                  name='_{}_'.format(s.name))

Plottar båda

moves.plot(legend=True)
s.plot(legend=True)

Analogen för dataframe skulle vara:

def mover_df(df, col, move_size=2):
    ref = None
    for i, row in df.iterrows():
        if ref is None or (abs(ref - row.loc[col]) >= move_size):
            yield row
            ref = row.loc[col]

df = s.to_frame()
moves_df = pd.concat(mover_df(df, 'A', 10), axis=1).T

moves_df.A.plot(label='_A_', legend=True)
df.A.plot(legend=True)

Hämta de första / sista n raderna i en dataframe

Om du vill se de första eller sista posterna i en dataframe kan du använda metoderna head och tail

För att returnera de första n raderna använder du DataFrame.head([n])

df.head(n)

För att returnera de sista n raderna använder du DataFrame.tail([n])

df.tail(n)

Utan argumentet n returnerar dessa funktioner 5 rader.

Observera att skivanotationen för head / tail skulle vara:

df[:10]  # same as df.head(10)
df[-10:] # same as df.tail(10)

Välj distinkta rader över dataframe

Låta

df = pd.DataFrame({'col_1':['A','B','A','B','C'], 'col_2':[3,4,3,5,6]})
df
# Output:
#   col_1  col_2
# 0     A      3
# 1     B      4
# 2     A      3
# 3     B      5
# 4     C      6

För att få de olika värdena i col_1 du använda Series.unique()

df['col_1'].unique()
# Output:
# array(['A', 'B', 'C'], dtype=object)

Men Series.unique () fungerar bara för en enda kolumn.

För att simulera markera unik col_1, col_2 i SQL kan du använda DataFrame.drop_duplicates() :

df.drop_duplicates()
#   col_1  col_2
# 0     A      3
# 1     B      4
# 3     B      5
# 4     C      6

Detta ger dig alla de unika raderna i dataframe. Så om

df = pd.DataFrame({'col_1':['A','B','A','B','C'], 'col_2':[3,4,3,5,6], 'col_3':[0,0.1,0.2,0.3,0.4]})
df
# Output:
#   col_1  col_2  col_3
# 0     A      3    0.0
# 1     B      4    0.1
# 2     A      3    0.2
# 3     B      5    0.3
# 4     C      6    0.4

df.drop_duplicates()
#   col_1  col_2  col_3
# 0     A      3    0.0
# 1     B      4    0.1
# 2     A      3    0.2
# 3     B      5    0.3
# 4     C      6    0.4

För att ange de kolumner som ska beaktas när du väljer unika poster, skicka dem som argument

df = pd.DataFrame({'col_1':['A','B','A','B','C'], 'col_2':[3,4,3,5,6], 'col_3':[0,0.1,0.2,0.3,0.4]})
df.drop_duplicates(['col_1','col_2'])
# Output:
#   col_1  col_2  col_3
# 0     A      3    0.0
# 1     B      4    0.1
# 3     B      5    0.3
# 4     C      6    0.4

# skip last column
# df.drop_duplicates(['col_1','col_2'])[['col_1','col_2']]
#   col_1  col_2
# 0     A      3
# 1     B      4
# 3     B      5
# 4     C      6

Källa: Hur “väljer man distinkt” mellan flera dataramkolumner i pandor? .

Filtrera ut rader med saknade data (NaN, Ingen, NaT)

Om du har ett dataframe med saknade data ( NaN , pd.NaT , None ) kan du filtrera bort ofullständiga rader

df = pd.DataFrame([[0,1,2,3],
                  [None,5,None,pd.NaT],
                  [8,None,10,None],
                  [11,12,13,pd.NaT]],columns=list('ABCD'))
df
# Output:    
#     A   B   C     D
# 0   0   1   2     3
# 1 NaN   5 NaN   NaT
# 2   8 NaN  10  None
# 3  11  12  13   NaT

DataFrame.dropna tappar alla rader som innehåller minst ett fält med saknade data

df.dropna()
# Output:
#    A  B  C  D
# 0  0  1  2  3

För att bara släppa raderna som saknas data i specificerade kolumner använder du subset

df.dropna(subset=['C'])
# Output:
#     A   B   C     D
# 0   0   1   2     3
# 2   8 NaN  10  None
# 3  11  12  13   NaT

Använd alternativet på inplace = True för att ersätta på plats med den filtrerade ramen.

Modified text is an extract of the original Stack Overflow Documentation

Licensierat under CC BY-SA 3.0

Inte anslutet till Stack Overflow

pandas
Indexera och välja data

Sök…

Välj kolumn efter etikett

Välj efter position

Skivning med etiketter

Blandad position och etikettbaserat urval

Booleska indexering

Filtrera kolumner (välja "intressant", släppa onödigt, använda RegEx, etc.)

generera prov DF

visa kolumner som innehåller bokstaven 'a'

visa kolumner med RegEx-filter `(b|c|d)` - `b` eller `c` eller `d` :

visa alla kolumner utom de som börjar med `a` (i annat ord ta bort / släpp alla kolumner som uppfyller givet RegEx)

Filtrera / välja rader med metoden `.fråga ()

generera slumpmässig DF

välj rader där värden i kolumn `A > 2` och värden i kolumn `B < 5`

med `.query()` -metod med variabler för filtrering

Bana beroende skivning

Hämta de första / sista n raderna i en dataframe

Välj distinkta rader över dataframe

Filtrera ut rader med saknade data (NaN, Ingen, NaT)

Välj kolumn efter etikett

Välj efter position

Skivning med etiketter

Blandad position och etikettbaserat urval

Booleska indexering

Filtrera kolumner (välja "intressant", släppa onödigt, använda RegEx, etc.)

generera prov DF

visa kolumner som innehåller bokstaven 'a'

visa kolumner med RegEx-filter (b|c|d) - b eller c eller d :

visa alla kolumner utom de som börjar med a (i annat ord ta bort / släpp alla kolumner som uppfyller givet RegEx)

Filtrera / välja rader med metoden `.fråga ()

generera slumpmässig DF

välj rader där värden i kolumn A > 2 och värden i kolumn B < 5

med .query() -metod med variabler för filtrering

Bana beroende skivning

Hämta de första / sista n raderna i en dataframe

Välj distinkta rader över dataframe

Filtrera ut rader med saknade data (NaN, Ingen, NaT)

visa kolumner med RegEx-filter `(b|c|d)` - `b` eller `c` eller `d` :

visa alla kolumner utom de som börjar med `a` (i annat ord ta bort / släpp alla kolumner som uppfyller givet RegEx)

välj rader där värden i kolumn `A > 2` och värden i kolumn `B < 5`

med `.query()` -metod med variabler för filtrering