サーチ…
備考
一般にGotchaは、文書化されていますが直感的ではない構文です。 Gotchasは、その直感的な性質のために通常期待されない出力を生成します。
Pandasのパッケージにはいくつかの問題があります。誰かを混乱させる可能性があり、気づいていない人もいれば、このドキュメントのページに表示されるものもあります。
np.nanで欠損値を検出する
ミスを検出したい場合は
df=pd.DataFrame({'col':[1,np.nan]})
df==np.nan
 次の結果が得られます。
col
0    False
1    False
 これは、何かに欠損値を比較するとFalseになるためです。
df=pd.DataFrame({'col':[1,np.nan]})   
df.isnull()
 結果は:
col
0    False
1    True
        整数とNA
Pandasはinteger型の属性の欠落をサポートしていません。たとえば、学年の欄にミスをした場合:
df= pd.read_csv("data.csv", dtype={'grade': int}) 
error: Integer column has NA values
 この場合、整数の代わりにfloatを使うか、オブジェクトdtypeを設定するだけです。
自動データ整列(インデックス認識動作)
データフレームdfの列に一連の値[1,2]を追加する場合は、NaNを取得します。
import pandas as pd
series=pd.Series([1,2])
df=pd.DataFrame(index=[3,4])
df['col']=series
df
   col
3    NaN
4    NaN
 新しい列を設定するとデータが自動的にインデックスで整列され、値1と2はデータフレームと同じようにインデックス0と1を取得し、3と4ではなく、
df=pd.DataFrame(index=[1,2])
df['col']=series
df
   col
1      2.0
2      NaN
 インデックスを無視する場合は、最後に.valuesを設定する必要があります。
df['col']=series.values
   col
3    1
4    2
    
    
    
    
    Modified text is an extract of the original Stack Overflow Documentation
        ライセンスを受けた CC BY-SA 3.0
        所属していない Stack Overflow