데이터 분석 및 실습

데이터 분석 및 실습 13주차 (모수검정과 비모수검정)

chris3471 2024. 11. 25. 10:16
728x90
반응형

모수검정

-y는 continuous하고 정규분포하다는 가정하에 분석

 

비모수검정

- y가 정규분포하지 않다는 가정하에 분석

 

- 표본수가 작아 정규분포를 가정하기 어려운 경우에 사용

- 분포가 병동이 심하거나, 한 쪽으로 치우쳐 왜곡된 경우에 사용

 

- 평균 비교가 불가능(정규분포하지 않음으로)

    -> 중위수를 비교!!

    -> 순서대로 배치한 후에 중앙값을 구한다. (median)

 

 

실습 12주차 연장선 (비모수검정)

 

데이터

 

 

a$wt의 정규분포 여부 check

 

-> 정규분포 하지 않음을 확인할 수 있다.

 

qqnorm으로도 확인 가능

 

var.test 와 t.test는 정규분포할 때만 사용!

 

 

 

정규분포하지 않을 경우에는 wilcox.test사용

(중위값, 최대, 최소 보여줘야함)

 

wilcox 사용화면

 

sex별 wt의 중위값(median)이 다르다는 것을 의미한다.

 

중위수와 최대/최소값의 범위를 보여줘야함.

 

summary()로 모두 보여줄 수 있다.

 

여기서 중위수와 최대/최소값을 뽑아서 설명해주면 된다.

 

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

 

continuous / continuous일 경우

 

plot() 결과화면

 

정규분포 한다면 cor.test로 두 변수의 상관관계를 확인한다.

p-vale<0.05임으로 유의하다.

 

 

정규분포 하지않는다면 cor.test(변수1, 변수2, method='spearman)로 두 변수의 상관관계를 확인한다.

p-value<0.05임으로 유의하다.

 

 

 

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

 

anova        vs          kruskal-wallis

 

정규분포하지 않는다면 kruskal-wallis test 이용

 

 

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

 

 

summary(data2) // summary로 문제가 될만한 값들을 판단하고 없애준다. (필수!!!!!!!!!!!!!!)

 

-step의 min값이 음수이고 max값이 53만을 넘어간다.

-calorie의 min값이 음수이고 max값이 1만7천을 넘어간다.

-distance는 character형이다.

 

변수값 수정 및 결과화면

-> 변수들 범위를 수정해줬다.

 

 

 

번외)

character인지 확인법!!

-> distance의 값들은 왼쪽에 붙어있다. (왼쪽에 붙어있으면 character형)

 

 

 

 

정규분포도 하지 않고, 표본수가 너무 적으면 glm함수를 사용(범주형일 때 사용했었음)

 

728x90
반응형