728x90
반응형

데이터 분석 및 실습 10

데이터 분석 및 실습 13주차 (모수검정과 비모수검정)

모수검정-y는 continuous하고 정규분포하다는 가정하에 분석 비모수검정- y가 정규분포하지 않다는 가정하에 분석 - 표본수가 작아 정규분포를 가정하기 어려운 경우에 사용- 분포가 병동이 심하거나, 한 쪽으로 치우쳐 왜곡된 경우에 사용 - 평균 비교가 불가능(정규분포하지 않음으로)    -> 중위수를 비교!!    -> 순서대로 배치한 후에 중앙값을 구한다. (median)  실습 12주차 연장선 (비모수검정)    -> 정규분포 하지 않음을 확인할 수 있다.  var.test 와 t.test는 정규분포할 때만 사용!   정규분포하지 않을 경우에는 wilcox.test사용(중위값, 최대, 최소 보여줘야함)  sex별 wt의 중위값(median)이 다르다는 것을 의미한다.   여기서 중위수와 최대/최소..

데이터 분석 및 실습 12주차 (실습)

데이터를 넣을때 age/sex정보는 무조건 추가!! lm(wt~age+factor(sex)+ ...)  # 체중에 영향을 미치는 요인 찾는 모델링 #파일 읽기> setwd('C:/data') > data1 = read.table('wt.txt', header=T, sep="\t") > data2 = read.table('2_App data_e.txt', header=T, sep="\t")  #데이터 추출하기data3 = aggregate(wt~pid, data1, max) // pid의 wt가 가장 큰 값들을 추출 > library(dplyr)> data4= data1%>%filter(!(is.na(age)&is.na(sex)))> data4= data4[c("pid","age","sex")]  #dat..

데이터 분석 및 실습 12주차 (실제 데이터 분석)

실제 데이터 분석- 같은 사람이 중복되어 나올 수 있다. ( 몇 번 나올지는 예상 x)- 비어있는 칸이 많이 존재한다. a = cbind(v1=c(1,2,3), v2=c(10,20,30)) b = cbind(v1=c(1,2,4), v3=c(10,20,30)) a = data.frame(a) b = data.frame(b)  merge함수 / inner_join함수 (데이터 합치기)-merge(a, b, key=v1) -library(dplyr)-inner_join(a, b, by='v1')     Sex 별 A_steps 의 차이가 있는지 검정 (당뇨 환자들)# 데이터- 1_EMR data_sex- 2_App data_e #데이터 불러오기- data1 = read.table('1_EMR data_sex...

데이터 분석 및 실습 11주차 (다중회귀분석)

Logistic Regression colon 데이터 불러오기install.packages("survival")library(survival)data=colonlibrary(gmodels)CrossTable(data$obstruct, data$status)  odds = ad/bc    Logistic 분석 obstruct이 status에 어떠한 영향을 미치는지 확인!!-> obstruct이 없을 때보다 obstruct이 있을 때 status가 재발할 확률이 1.295배  증가한다.   신뢰구간에 1이 포함 안되면 유의하다.

데이터 분석 및 실습 10주차 (Chi-square test)

이전에 배웠던 것들은 y가 continuous한 변수였음. Y = 알파 + 베타*X ( x와 y 둘다 categorical한 변수들인 경우)  m = mtcars 이용 (vs, gear변수 사용)CrossTable(m$vs, m$gear)  1. vs에 타입에 따라서 기어의 종류의 가지수들이 유사하다. (homogin)2. 엔진의 쉐입과 기어의 종류는 독립이다. (independency)    => 두 변수간의 상관관계를 알려준다. pp>0.05이면 vs와 gear는 독립적인 관계이다

데이터 분석 및 실습 10주차 (다중회귀분석)

분산확대인자(VIF)를 이용하여 공선성이 존재하는지 확인-다중공선성 ( 여러가지 인자들이 있을 때 사용)      AIC가 작을수록 좋은 모델이다.  vs, gear가 mpg에 상관관계가 없다. but!!! gear를 제거하고 나니까 vs가 mpg에 상관관계가 있다고 나타났다.R-squared는 바뀌지 않았다.   모수절약의 법칙!!- 가능한 한 적은 수의 의미있는 변수들로 종속변수를 설명하고 표현해야 한다는 원칙     per1grade  or  per1grade+ger2grade 중 어떤 것이 더 좋은 모델인지 확인법

데이터 분석 및 실습 9주차 (다중회귀분석)

-> 연속형 변수와 비연속형 변수와의 lm계산   base line을 trt2로 바꾸고 싶을 때! (현재는 base line이 ctrl그룹임)   trt1과 trt2의 weight간에 통계적으로 유의한 차이가 있다.    아노바 검정 lm뿐만 아니라 aov검정으로도 확인가능하다.  m = mtcars   기어5를 기준으로 바꿔주기   aov 검정으로 확인해보기(factor 사용!!! -> 그룹별 변수이기 때문에)  plot으로 확인해보기 vs변수 => Engine(0=V-shaped, 1=straight) // help(mtcars) 로 확인가능 v-shaped형태의 엔진에서 straight형태의 엔진으로 넘어갈 때 -1.0773만큼 줄어든다.  t.test를 이용해서 vs간에 평균차이가 있음을 확인할 ..

데이터 분석 및 실습 9주차(상관분석, 회귀분석)

상관분석 변수들의 원인과 결과를 밝히는 것이 아니라 단순한 상관성을 분석하는 것!!변수가 둘 다 continuous variable일 경우 (둘 다 연속형)   c=cars 데이터로 분석 1. pearson correlation plot을 이용하여 x축과 y축이 무엇인지를 확인  cor=0.806 임으로 1에 가까운 것을 확인 가능p-value  - 기본가정 : 통계학적으로 독립을 이루며 정규분포를 따르고, 평균은 0 이고 분산은 ∂ ^2 이다.   Y = 알파 + 베타*X Coefficients에서 (Intercept)의 값은 -17.579로 알파값이고,speed는 3.932로 베타값이다. (기울기) speed의 p-valueMultiple R-squared 값을 통해서 speed값이 dist값을 65..

데이터 분석 및 실습 7주차 ( 분산분석 - ANOVA )

분산분석 -  ANOVA 정규분포하는지 Checkshapiro.test(p$weight)   bartlett.test(weight~group, data=p)     aov(weight~group, data=p)   summary로 확인-> Pr (BUT, 어떤 그룹끼리가 다른지는 확인할 수가 없다.)   어떤 그룹끼리의 평균이 다른지를 Check  하는법-> 그래프에서 0.0을 포함하지 않는 것이 다른것!!!!!!!!!!!-> or 맨 오른쪽 p adj       참고https://kilhwan.github.io/bizstat-book/ch-anova.html Chapter 13 분산 분석 | R을 이용한 통계 분석 (개정판)경영통계분석실습의 교재를 위해 제작되었습니다.kilhwan.github.ioht..

데이터 분석 및 실습 6주차 (T 검정)

Two-sample t-test그룹(discriptive 변수)이 2그룹만 있어야한다. ( 3그룹인 경우 -> 2그룹으로 만들기)  3개의 그룹을 2개의 그룹으로 만들기p = PlantGrowthp$group2 = ifelse(p$group=='ctrl', "0", "1")   그룹별 weight의 평균을 구하는 법aggregate(weight~group2, p, mean)   shapiro.test(p$weight)를 사용하여 p (p    -> 표준편차(sd : 퍼진 정도)가 같은지 아닌지 판단 (F통계량 사용)(p    ->  평균이 같은지 아닌지 판단(t-test 통계량 사용) var.equal = T // 분산이 동일 (아니면 F를 사용)

728x90
반응형