데이터 분석 및 실습

데이터 분석 및 실습 9주차(상관분석, 회귀분석)

chris3471 2024. 10. 28. 10:55
728x90
반응형

상관분석 

변수들의 원인과 결과를 밝히는 것이 아니라 단순한 상관성을 분석하는 것!!

변수가 둘 다 continuous variable일 경우 (둘 다 연속형)

 

 

c=cars 데이터로 분석

1. pearson correlation

r값에 따른 상관관계

 

plot을 이용하여 x축과 y축이 무엇인지를 확인

 

correlation 확인하는 법

 

cor=0.806 임으로 1에 가까운 것을 확인 가능

p-value<0.05임으로 강한 양의 상관관계임을 확인할 수 있다.

 

경향성을 파악하는 방법

 

- 기본가정 : 통계학적으로 독립을 이루며 정규분포를 따르고, 평균은 0 이고 분산은 ∂ ^2 이다.

 

 

lm사용 결과

 

Y = 알파 + 베타*X

 

Coefficients에서 (Intercept)의 값은 -17.579로 알파값이고,

speed는 3.932로 베타값이다. (기울기)

 

speed의 p-value<0.05임으로 0과는 다르다는 것을 검정가능

Multiple R-squared 값을 통해서 speed값이 dist값을 65% 설명할 수 있다는 것을 의미

 

 

 

 

speed<=17인 그룹과 아닌 그룹으로 나눠서 분석

x가 범위형 변수가 되면 speed<=17인 그룹에서 speed>17 인 그룹으로 넘어갈 때 거리를 35.941만큼 더 간다.

예시

 

 

speed<=12(base line을 기준으로) ,  12<speed<=17, speed>17로 분류

위의 예시

- Y = 알파 + 베타1*X1 + 베타2*X2 형식이 된다.

 

lm 사용법

speed<13이하인 경우에서 d1인 13<=speed<17인 경우로 넘어가면 21.55만큼 더 간다.

speed<13이하인 경우에서 d2인 speed<17인 경우로 넘어가면 47.06만큼 더 간다.

는 의미이다.

 

 

women 데이터로 총정리

총 정리

 

 

 

 

 

 

 

2. spearman correlation

 

728x90
반응형