데이터 분석 및 실습

데이터 분석 및 실습 12주차 (실습)

chris3471 2024. 11. 20. 11:45
728x90
반응형

데이터를 넣을때 age/sex정보는 무조건 추가!!

 

lm(wt~age+factor(sex)+ ...)

 

 

# 체중에 영향을 미치는 요인 찾는 모델링

 

#파일 읽기

> setwd('C:/data')
> data1 = read.table('wt.txt', header=T, sep="\t")
> data2 = read.table('2_App data_e.txt', header=T, sep="\t")

 

 

#데이터 추출하기

data3 = aggregate(wt~pid, data1, max) // pid의 wt가 가장 큰 값들을 추출

data3

 

> library(dplyr)

> data4= data1%>%filter(!(is.na(age)&is.na(sex)))

> data4= data4[c("pid","age","sex")]

 

data4

 

#data3과 data4를 합치기

합쳐진 데이터

 

 

아래에 설명

1. d와 d1,d2,d3 데이터를 나중에 쉽게 합치기 위해서 d에 A_myhealth_id로 이름을 맞추기

2. 아이디에 따른 스탭, 칼로리, 거리별 평균을 구한다.

3. distance에서 오류가 발생 -> summary(data2)로 distance가 character형임을 알 수 있다.

4. data2$A_distance = as.numeric(data2$A_distance)   //distance를 numeric으로 변경

 

이제는 문제가 없음

 

 

 

#d와 d1,d2,d3데이터 합치기

합쳐진 화면

 

 

#분석

library(car)

다중공선성 분석

-> 다중 공선성을 고려하면 A_steps과 A_distance는 사용하지 않는 것이 좋음. ( 둘이 서로한테 미치는 영향이 더 크다)

(10을 넘으면 안된다.)

 

 

최종(?)

 

#결과 함의

나이가 1살 증가할 때마다 wt가 0.229만큼 줄어든다.

남성이 여성보다 wt가 11.25배만큼 감소한다.

칼로리가 1씩 증가할 때마다 wt가 0.001165배만큼 증가한다.

728x90
반응형