데이터를 넣을때 age/sex정보는 무조건 추가!!
lm(wt~age+factor(sex)+ ...)
# 체중에 영향을 미치는 요인 찾는 모델링
#파일 읽기
> setwd('C:/data')
> data1 = read.table('wt.txt', header=T, sep="\t")
> data2 = read.table('2_App data_e.txt', header=T, sep="\t")
#데이터 추출하기
data3 = aggregate(wt~pid, data1, max) // pid의 wt가 가장 큰 값들을 추출
> library(dplyr)
> data4= data1%>%filter(!(is.na(age)&is.na(sex)))
> data4= data4[c("pid","age","sex")]
#data3과 data4를 합치기
1. d와 d1,d2,d3 데이터를 나중에 쉽게 합치기 위해서 d에 A_myhealth_id로 이름을 맞추기
2. 아이디에 따른 스탭, 칼로리, 거리별 평균을 구한다.
3. distance에서 오류가 발생 -> summary(data2)로 distance가 character형임을 알 수 있다.
4. data2$A_distance = as.numeric(data2$A_distance) //distance를 numeric으로 변경
#d와 d1,d2,d3데이터 합치기
#분석
library(car)
-> 다중 공선성을 고려하면 A_steps과 A_distance는 사용하지 않는 것이 좋음. ( 둘이 서로한테 미치는 영향이 더 크다)
(10을 넘으면 안된다.)
#결과 함의
나이가 1살 증가할 때마다 wt가 0.229만큼 줄어든다.
남성이 여성보다 wt가 11.25배만큼 감소한다.
칼로리가 1씩 증가할 때마다 wt가 0.001165배만큼 증가한다.
'데이터 분석 및 실습' 카테고리의 다른 글
데이터 분석 및 실습 13주차 (모수검정과 비모수검정) (0) | 2024.11.25 |
---|---|
데이터 분석 및 실습 12주차 (실제 데이터 분석) (0) | 2024.11.18 |
데이터 분석 및 실습 11주차 (다중회귀분석) (0) | 2024.11.11 |
데이터 분석 및 실습 10주차 (Chi-square test) (0) | 2024.11.06 |
데이터 분석 및 실습 10주차 (다중회귀분석) (1) | 2024.11.04 |