728x90
반응형

분류 전체보기 53

데이터 분석 및 실습 7주차 ( 분산분석 - ANOVA )

분산분석 -  ANOVA 정규분포하는지 Checkshapiro.test(p$weight)   bartlett.test(weight~group, data=p)     aov(weight~group, data=p)   summary로 확인-> Pr (BUT, 어떤 그룹끼리가 다른지는 확인할 수가 없다.)   어떤 그룹끼리의 평균이 다른지를 Check  하는법-> 그래프에서 0.0을 포함하지 않는 것이 다른것!!!!!!!!!!!-> or 맨 오른쪽 p adj       참고https://kilhwan.github.io/bizstat-book/ch-anova.html Chapter 13 분산 분석 | R을 이용한 통계 분석 (개정판)경영통계분석실습의 교재를 위해 제작되었습니다.kilhwan.github.ioht..

데이터 분석 및 실습 6주차 (T 검정)

Two-sample t-test그룹(discriptive 변수)이 2그룹만 있어야한다. ( 3그룹인 경우 -> 2그룹으로 만들기)  3개의 그룹을 2개의 그룹으로 만들기p = PlantGrowthp$group2 = ifelse(p$group=='ctrl', "0", "1")   그룹별 weight의 평균을 구하는 법aggregate(weight~group2, p, mean)   shapiro.test(p$weight)를 사용하여 p (p    -> 표준편차(sd : 퍼진 정도)가 같은지 아닌지 판단 (F통계량 사용)(p    ->  평균이 같은지 아닌지 판단(t-test 통계량 사용) var.equal = T // 분산이 동일 (아니면 F를 사용)

cut 함수 (연속형 변수를 구간으로 나누는데 사용하는 함수)

cut 함수는 R 프로그래밍 언어에서 연속형 변수를 구간(빈)으로 나누는 데 사용되는 함수입니다. 주로 데이터의 구간별 분석이나 그룹화에 유용하게 활용됩니다.cut(x, breaks, labels = NULL, right = TRUE, include.lowest = FALSE, ...) x: 나눌 연속형 변수(벡터)입니다.breaks: 나눌 구간(빈)의 경계값을 나타내는 벡터입니다. 구간은 연속적이어야 합니다.labels: 나눠진 구간에 할당할 레이블입니다. 이 매개변수를 지정하지 않으면 구간의 경계값이 레이블로 사용됩니다.right: 기본값은 TRUE이며, 이는 오른쪽 경계값을 포함하는 것을 의미합니다. FALSE로 설정하면 왼쪽 경계값을 포함합니다.include.lowest: TRUE로 설정하면 가장..

카테고리 없음 2024.10.05
728x90
반응형