Sök…


Hitta korrelationen mellan kolumner

Anta att du har en DataFrame med numeriska värden, till exempel:

df = pd.DataFrame(np.random.randn(1000, 3), columns=['a', 'b', 'c'])

Sedan

>>> df.corr()
    a    b    c
a    1.000000    0.018602    0.038098
b    0.018602    1.000000    -0.014245
c    0.038098    -0.014245    1.000000

hittar Pearson-korrelation mellan kolumnerna. Notera hur diagonalen är 1, eftersom varje kolumn (uppenbarligen) är helt korrelerad med sig själv.

pd.DataFrame.correlation tar en valfri method parameter, som anger vilken algoritm som ska användas. Standardvärdet är pearson . Använd t.ex. Spearman-korrelation

>>> df.corr(method='spearman')
    a    b    c
a    1.000000    0.007744    0.037209
b    0.007744    1.000000    -0.011823
c    0.037209    -0.011823    1.000000


Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow