pandas
Beräkningsverktyg
Sök…
Hitta korrelationen mellan kolumner
Anta att du har en DataFrame med numeriska värden, till exempel:
df = pd.DataFrame(np.random.randn(1000, 3), columns=['a', 'b', 'c'])
Sedan
>>> df.corr()
a b c
a 1.000000 0.018602 0.038098
b 0.018602 1.000000 -0.014245
c 0.038098 -0.014245 1.000000
hittar Pearson-korrelation mellan kolumnerna. Notera hur diagonalen är 1, eftersom varje kolumn (uppenbarligen) är helt korrelerad med sig själv.
pd.DataFrame.correlation
tar en valfri method
parameter, som anger vilken algoritm som ska användas. Standardvärdet är pearson
. Använd t.ex. Spearman-korrelation
>>> df.corr(method='spearman')
a b c
a 1.000000 0.007744 0.037209
b 0.007744 1.000000 -0.011823
c 0.037209 -0.011823 1.000000
Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow