Buscar..


Observaciones

Gotcha en general es una construcción que está documentada, pero no es intuitiva. Los gotchas producen una salida que normalmente no se espera debido a su carácter contraintuitivo.

El paquete de Pandas tiene varios errores, que pueden confundir a alguien que no los conoce, y algunos de ellos se presentan en esta página de documentación.

Detectando valores perdidos con np.nan

Si quieres detectar faltas con

df=pd.DataFrame({'col':[1,np.nan]})
df==np.nan

Obtendrás el siguiente resultado:

col
0    False
1    False

Esto se debe a que comparar el valor faltante con cualquier cosa da como resultado un Falso; en lugar de esto, debe usar

df=pd.DataFrame({'col':[1,np.nan]})   
df.isnull()

lo que resulta en:

col
0    False
1    True

Integer y NA

Las pandas no admiten la falta de atributos de tipo entero. Por ejemplo, si tiene faltas en la columna de calificación:

df= pd.read_csv("data.csv", dtype={'grade': int}) 
error: Integer column has NA values

En este caso, solo debes usar float en lugar de enteros o establecer el tipo de objeto.

Alineación automática de datos (comportamiento indexado)

Si desea agregar una serie de valores [1,2] a la columna de dataframe df, obtendrá NaNs:

import pandas as pd

series=pd.Series([1,2])
df=pd.DataFrame(index=[3,4])
df['col']=series
df

   col
3    NaN
4    NaN

porque la configuración de una nueva columna alinea automáticamente los datos por el índice, y sus valores 1 y 2 obtendrían los índices 0 y 1, y no 3 y 4 como en su marco de datos:

df=pd.DataFrame(index=[1,2])
df['col']=series
df

   col
1      2.0
2      NaN

Si desea ignorar el índice, debe configurar los valores al final:

df['col']=series.values

   col
3    1
4    2


Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow