데이터 분석 및 실습 12주차 (실습)
데이터를 넣을때 age/sex정보는 무조건 추가!!
lm(wt~age+factor(sex)+ ...)
# 체중에 영향을 미치는 요인 찾는 모델링
#파일 읽기
> setwd('C:/data')
> data1 = read.table('wt.txt', header=T, sep="\t")
> data2 = read.table('2_App data_e.txt', header=T, sep="\t")
#데이터 추출하기
data3 = aggregate(wt~pid, data1, max) // pid의 wt가 가장 큰 값들을 추출
> library(dplyr)
> data4= data1%>%filter(!(is.na(age)&is.na(sex)))
> data4= data4[c("pid","age","sex")]
#data3과 data4를 합치기
1. d와 d1,d2,d3 데이터를 나중에 쉽게 합치기 위해서 d에 A_myhealth_id로 이름을 맞추기
2. 아이디에 따른 스탭, 칼로리, 거리별 평균을 구한다.
3. distance에서 오류가 발생 -> summary(data2)로 distance가 character형임을 알 수 있다.
4. data2$A_distance = as.numeric(data2$A_distance) //distance를 numeric으로 변경
#d와 d1,d2,d3데이터 합치기
#분석
library(car)
-> 다중 공선성을 고려하면 A_steps과 A_distance는 사용하지 않는 것이 좋음. ( 둘이 서로한테 미치는 영향이 더 크다)
(10을 넘으면 안된다.)
#결과 함의
나이가 1살 증가할 때마다 wt가 0.229만큼 줄어든다.
남성이 여성보다 wt가 11.25배만큼 감소한다.
칼로리가 1씩 증가할 때마다 wt가 0.001165배만큼 증가한다.