머신러닝

머신 러닝 ch4) Simple Linear Regression

chris3471 2025. 3. 26. 00:00
728x90
반응형

simple Linear Regression

기본 형태 :

 

- From training data, learn model coefficients : β0^,  β1^

 

- predict y on the bases of x :

예측 (prediction)

 

 

전체 구조

 

 

Residual sum of squares (RSS) 

- 예측값과 실제값 사이의 차이를 제곱해서 모두 더한 값

RSS 계산법

 

- RSS가 작을수록 모델이 데이터를 더 잘 설명하고 있다는 뜻

- RSS가 크면 예측이 실제 데이터와 많이 다르다는 뜻

- RSS는 선형회귀에서 최적의 선형모델을 찾기 위한 기준으로 자주 사용

 

How accurate is our model?

least square == LS

 

예시)

다양한 LS가 있음

 

Standard error (SE) - 표준 오차

- 추정값이 반복 샘플링(repeated sampling) 상황에서 얼마나 변할 수 있는지를 나타내는 지표

(즉, 같은 모델을 여러 번 반복해서 만들었을 때 계수의 추정치들이 얼마나 흔들릴지를 알려줌)

수식은 외울 필요 없음

 

1. 표본 개수 n이 커질수록 -> SE는 작아짐 (많은 데이터를 쓰면 추정이 더 안정적임)

2. xi들이 평균에서 멀리 퍼져 있을수록 -> SE는 작아짐 (다양한 입력값이 있을수록 기울기 추정이 정확해짐)

 

 

Confidence interval (신뢰구간)

신뢰 구간

 

β0,  β1 이 위에 있는 사진의 신뢰 구간 안에 포함되어 있을 확률이 95% 임

 

예시

 

 

Hypothesis test

가설 검증 방법

 

β1 = 0 이면 H0이 성립한다 (즉, X와 Y 사이에 관계가 없음)

 

그림으로 보면 이런 구조

 

The t-statistic

- The null hypothesis is tested by a t-statistic

계산 방법 (수식은 외울 필요 없음)

 

1. n ≥ 30일 경우 정규분포(normal distribution) 근사 가능

2. p-value : |t| 이상이 나올 확률 -> 작을수록 유의미 => X와 Y 사이에 관계가 있음

(p-value < 0.05이면 H0을 기각시킴)

예시

 

Assessing the accuracy of the model  (모델 성능 평가 지표)

Residual Standard Error (RSE) - 잔차 표준 오차

수식

-> 데이터의 오차(e)의 표준편차에 대한 추정치

 

 

R² Statistic : 설명된 분산 비율 (fraction of variance explained using X)

수식

 

 - TSS : 전체 변동 (Total Sum of Squares)

 - RSS : 설명하지 못한 부분 (left unexplained after regression)

 - 은 0~1사이 -> 1에 가까울수록 설명력이 높음

728x90
반응형