상관계수란 두 변수가 얼마나 관계가 있는지 알려주는 지표입니다.
오늘은 피어슨 상관계수와 스피어만 상관계수에 대해서 알아보고 비교해 보겠습니다.
1. 피어슨 상관계수
- 두 변수가 모두 연속형자료일때
- 선형적인 상관관계를 모수적인 방법으로 표현 (모수적인 방법이란, 데이터가 정규성을 띤다고 생각한다는 것)
2. 스피어만
- 두 변수가 모두 연속형자료일때
- 데이터가 정규성에서 벗어날때 -> 비모수적
- 두 변수가 순위척도 일때
- 선형적인 관계보다는 단순히 한 변수가 증가할때 다른 변수도 증가하는지를 알려준다!
1. 피어슨 상관계수
두 변수의 공분산 / (x의 표준편차 * y의 표준편차)
https://github.com/YongJaeJung/Data_Analysis/blob/master/%ED%86%B5%EA%B3%84/pearson_corr.ipynb
2. 스피어만 상관계수
데이터에 순위를 매김 -> 그리고 데이의 크기로 정렬
동순위에서 데이터의 차이의 합을 구함
그것에 6을 곱하고 / n*(n-1) 을 계산 (n은 데이터의 길이)
https://github.com/YongJaeJung/Data_Analysis/blob/master/%ED%86%B5%EA%B3%84/spearman%20corr.ipynb
0 comments:
댓글 쓰기