데이터 분석 및 실습

데이터 분석 및 실습 12주차 (실제 데이터 분석)

chris3471 2024. 11. 18. 11:18
728x90
반응형

실제 데이터 분석

- 같은 사람이 중복되어 나올 수 있다. ( 몇 번 나올지는 예상 x)

- 비어있는 칸이 많이 존재한다.

 

a = cbind(v1=c(1,2,3), v2=c(10,20,30))
b = cbind(v1=c(1,2,4), v3=c(10,20,30))
a = data.frame(a)
b = data.frame(b)

 

 

merge함수 / inner_join함수 (데이터 합치기)

-merge(a, b, key=v1)

 

-library(dplyr)

-inner_join(a, b, by='v1')

merge한 결과

 

inner_join한 결과

 

 

 

 

Sex 별 A_steps 의 차이가 있는지 검정 (당뇨 환자들)

# 데이터

- 1_EMR data_sex

- 2_App data_e

 

#데이터 불러오기

- data1 = read.table('1_EMR data_sex.txt', header=T, sep="\t")
- data2 = read.table('2_App data_e.txt', header=T, sep="\t")

 

#결측치 제거

- data1_1 = na.omit(data1)

 

#데이터 합치기 (data1에 data2안에 있는 step데이터를 추가!!)

    # id별 steps들의 평균을 구하기

    - data3=aggregate(A_steps~A_myhealth_id, data2, mean) 

    

    # 병합할 데이터 key값을 동일하게 만들어주고 병합하기

    - data3$pid = data3$A_myhealth_id

    - merge(data1_1, data3, key=pid)

data1_1, data3, merge된 데이터

 

 

t.test를 통한 검정

t.test 검정 결과

 

남자는 평균적으로 4681 걸음을 걷고, 여성은 평균적으로 3997 걸음 걷는다고 나온다.

하지만 남녀별로 steps수의 차이가 없다고 결론이 나온다. (p-value>0.05)

728x90
반응형