Szukaj…


Znajdź korelację między kolumnami

Załóżmy, że masz ramkę danych o wartościach liczbowych, na przykład:

df = pd.DataFrame(np.random.randn(1000, 3), columns=['a', 'b', 'c'])

Następnie

>>> df.corr()
    a    b    c
a    1.000000    0.018602    0.038098
b    0.018602    1.000000    -0.014245
c    0.038098    -0.014245    1.000000

znajdzie korelację Pearsona między kolumnami. Zauważ, że przekątna wynosi 1, ponieważ każda kolumna jest (oczywiście) w pełni skorelowana ze sobą.

pd.DataFrame.correlation przyjmuje opcjonalny parametr method , określając, którego algorytmu użyć. Domyślnie jest to pearson . Aby na przykład użyć korelacji Spearmana, użyj

>>> df.corr(method='spearman')
    a    b    c
a    1.000000    0.007744    0.037209
b    0.007744    1.000000    -0.011823
c    0.037209    -0.011823    1.000000


Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow