실제 데이터 분석
- 같은 사람이 중복되어 나올 수 있다. ( 몇 번 나올지는 예상 x)
- 비어있는 칸이 많이 존재한다.
a = cbind(v1=c(1,2,3), v2=c(10,20,30))
b = cbind(v1=c(1,2,4), v3=c(10,20,30))
a = data.frame(a)
b = data.frame(b)
merge함수 / inner_join함수 (데이터 합치기)
-merge(a, b, key=v1)
-library(dplyr)
-inner_join(a, b, by='v1')
Sex 별 A_steps 의 차이가 있는지 검정 (당뇨 환자들)
# 데이터
- 1_EMR data_sex
- 2_App data_e
#데이터 불러오기
- data1 = read.table('1_EMR data_sex.txt', header=T, sep="\t")
- data2 = read.table('2_App data_e.txt', header=T, sep="\t")
#결측치 제거
- data1_1 = na.omit(data1)
#데이터 합치기 (data1에 data2안에 있는 step데이터를 추가!!)
# id별 steps들의 평균을 구하기
- data3=aggregate(A_steps~A_myhealth_id, data2, mean)
# 병합할 데이터 key값을 동일하게 만들어주고 병합하기
- data3$pid = data3$A_myhealth_id
- merge(data1_1, data3, key=pid)
t.test를 통한 검정
남자는 평균적으로 4681 걸음을 걷고, 여성은 평균적으로 3997 걸음 걷는다고 나온다.
하지만 남녀별로 steps수의 차이가 없다고 결론이 나온다. (p-value>0.05)
'데이터 분석 및 실습' 카테고리의 다른 글
데이터 분석 및 실습 13주차 (모수검정과 비모수검정) (0) | 2024.11.25 |
---|---|
데이터 분석 및 실습 12주차 (실습) (0) | 2024.11.20 |
데이터 분석 및 실습 11주차 (다중회귀분석) (0) | 2024.11.11 |
데이터 분석 및 실습 10주차 (Chi-square test) (0) | 2024.11.06 |
데이터 분석 및 실습 10주차 (다중회귀분석) (1) | 2024.11.04 |