데이터 분석 및 실습 9주차(상관분석, 회귀분석)
상관분석
변수들의 원인과 결과를 밝히는 것이 아니라 단순한 상관성을 분석하는 것!!
변수가 둘 다 continuous variable일 경우 (둘 다 연속형)
c=cars 데이터로 분석 |
1. pearson correlation
plot을 이용하여 x축과 y축이 무엇인지를 확인
cor=0.806 임으로 1에 가까운 것을 확인 가능
p-value<0.05임으로 강한 양의 상관관계임을 확인할 수 있다.
- 기본가정 : 통계학적으로 독립을 이루며 정규분포를 따르고, 평균은 0 이고 분산은 ∂ ^2 이다.
Y = 알파 + 베타*X
Coefficients에서 (Intercept)의 값은 -17.579로 알파값이고,
speed는 3.932로 베타값이다. (기울기)
speed의 p-value<0.05임으로 0과는 다르다는 것을 검정가능
Multiple R-squared 값을 통해서 speed값이 dist값을 65% 설명할 수 있다는 것을 의미
speed<=17인 그룹과 아닌 그룹으로 나눠서 분석
x가 범위형 변수가 되면 speed<=17인 그룹에서 speed>17 인 그룹으로 넘어갈 때 거리를 35.941만큼 더 간다.
speed<=12(base line을 기준으로) , 12<speed<=17, speed>17로 분류
- Y = 알파 + 베타1*X1 + 베타2*X2 형식이 된다.
speed<13이하인 경우에서 d1인 13<=speed<17인 경우로 넘어가면 21.55만큼 더 간다.
speed<13이하인 경우에서 d2인 speed<17인 경우로 넘어가면 47.06만큼 더 간다.
는 의미이다.
women 데이터로 총정리
2. spearman correlation