Multiple Linear Regression
- p predictors in a model :
βj : association between Xj and Y ( Xj의 한 단위가 증가함에 따라 Y가 받는 평균 영향)
1. learning : 계수 추정
- 목표 : 계수 β^1,β^2,...,β^p 추정
- 방법 : 최소제곱법 (Least Squares) 사용
2. prediction
-> 이 모델을 사용해 새로운(test) 데이터에 대해 예측 수행
------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------
Simple vs Multiple Linear Regression
-> simple regressions 에서는 TV, radio, newspaper 각각이 sales와 연관이 있음 (p-value<0.05이기 때문에)
-> 하지만, multiple regressions 에서는 newspaper가 sales에 연관이 없음
Some important questions
1. 예측 변수 중 최소한 하나라도 Y 예측에 의미가 있는가?
- 회귀 분석에서는 보통 전체 회귀계수가 0인지 검정하는 형태로 다룸 (F-statistic)
-> 아무 변수도 쓸모가 없다면, 예측 모델은 의미가 없음
2. 모든 변수가 Y를 설명하는가? 아니면 일부만이 유의미한가?
- 변수 선택 문제 (feature selection)와 직결됨 (불필요한 변수는 예측력을 떨어뜨릴 수도 있음)
=> greedy approach를 사용
1) forward selection
- start from null model (intercept only)
- add one predictor at a time
2) backward selection
- start from full model (all the predictors)
- remove one predictor at a time
3) mixed : combination of forward & backward selection
3. 모델이 데이터에 얼마나 잘 들어맞는가?
- 적합도 평가 (회귀에서는 R², 잔차 분석, MSE 등 / 분류에서는 정확도 등)
=> R² 은 predictors의 수가 늘어날수록 커짐
4. 새로운 값이 주어졌을 때, 우리는 무엇을 예측할 것인가? 그리고 그 예측은 얼마나 정확한가?
(예측 오차, 신뢰 구간, 표준 오차(SE), 테스트 MSE 등으로 측정)
- confidence interval 은 예측값 β^과 실제값 β의 오차값들을 계산한 것
'머신러닝' 카테고리의 다른 글
머신 러닝 ch4) Simple Linear Regression (1) | 2025.03.26 |
---|---|
머신 러닝 ch3) 모델 정확도 평가 (Assessing Model Accuracy) (1) | 2025.03.25 |
머신 러닝 ch2) 통계적 학습이란(Statistical Learning) ? (0) | 2025.03.25 |
머신 러닝 ch1) 통계적 학습 개요 (2) | 2025.03.25 |