머신러닝

머신 러닝 ch2) 통계적 학습이란(Statistical Learning) ?

chris3471 2025. 3. 25. 12:01
728x90
반응형

통계적 학습의 예시 : 광고 데이터 (Advertising data)

- 목표 : want to improve sales of your shoes (control advertising budgets : SNS, streaming, and filter)

 

How ?

1) learn the relationship between advertising and sales

2) use it to predict sales

Plotting

 

핵심 용어 (Key terms)

1. want to improve sales(Y) of a product

 -> Y : output variable, dependent variable

 

2. control advertising budgets : SNS(X1), streaming(X2), filter(X3)

-> X1, X2, X3 : input variable, independent variables, predictors

 

Key questions

1. What is the relationship between X1, X2, X3 and Y? -> learning

2. How accurately can we predict Y from X1, X2, X3? -> prediction

 

Formally,

relationship (f)

 

- statistical learning : estimate (learn) f from data !

(There are many ways! You should be able to choose the best one!)

예시

 

Why estimate f ?

모델의 유용한 용도

1) prediction : predict Y from (new or unseen) X

2) inference : understand the relationship between X and Y

 

Prediction

Once we have a good model, we can predict Y from new X

수식

 

Reducible vs irreducible errors

- True relationship : Y = f(X) + e

 

- learn f from data and use it for prediction

 

줄일 수 있는 에러 vs 줄일 수 없는 에러

 

1. 축소 가능한 오류 (Reducible error)

 - 추청 함수 f^ 와 실제 함수 f 간에 차이가 있을 때 발생하는 오류

 - f^ -> f 로 개선 가능하기 때문에 줄일 수 있는 오류

 

2. 축소 불가능한 오류 (Irreducible error)

 - 데이터 자체의 불확실성이나 잡음으로 인해 발생하며, 모델이 아무리 개선되더라도 완전히 해결될 수 없음

 

예시

 

 

Quantification of the error

평균 제곱 오차

 

-> reducible error를 최소화하기 위해 f 를 추정하는 것이 목표

 

---------------------------------------------------------------------------------------------------------------

Inference

- In prediction, f는 block box 였음

- But, for inference, 우리는 f의 정확한 형태를 알기를 원함

- X1, ..., Xp에 의해 Y가 어떻게 변하는지를 이해해야함! (X와 Y 관계를 찾기)

 

 

prediction 그림

 

Inference Questions

1. Which predictors are associated with the response ?

 -> 어떤 예측 변수가 반응변수(Y)와 관련이 있는가?

ex) X1, ...., Xp 중 어떤 변수가 중요한가?

 

2. What is the relationship between the response and each predictor ?

 -> 반응변수와 예측변수 간의 관계는 무엇인가?

ex) X1이 증가하면 Y는 증가하는가? 감소하는가?

      X2가 양수일 때, X1이 증가하면 Y는 증가하는가? 감소하는가?

 

3. Can the relationship between Y and each predictor be adequately summarized using a linear equation, or is the relationship more complicated ?

 -> Y와 예측변수 간의 관계를 선형 방정식으로 유약할 수 있는가? 아니면 더 복잡한가?

 

------------------------------------------------------------------------------------------------------------------------------------------------------

Prediction vs Inference

 

문제 상황 :

 - 90,000명의 사람들이 있고, 각각에 대해 400개의 특성(변수)이 있음

 - 각 개인이 얼마를 기부할지를 예측하고 싶음

 

X1, ..., Xp : 인구통계학 데이터

Y : 긍정/부정 응답

 

핵심 질문 :

 - 특정 개인에게 마케팅 메일을 보내야 할까?

 

=> 즉, Y값(기부 금액 또는 반응 유무)을 어떻게 추정하느냐는 중요하지 않음

(Don't care how you estimate Y) - 결과 예측만 중요!

 

 

 

목표 : 어떤 광고 매체가 매출에 영향을 미치는지 이해하는 것

질문들 :

 - 어떤 매체가 매출에 기여하는가?

 - 어떤 매체가 가장 큰 매출 상승을 유도하는가?

 - SNS 광고가 늘어났을 때, 매출은 얼마나 증가하는가?

 

=> 광고의 인과적 효과를 이해하고자 하는 것이 핵심 (단순 예측이 아니라 이해와 설명이 목적)

 

 

 

목표 : 14개의 변수로 주택 가격을 예측하면서, 어떤 요인이 가격에 가장 큰 영향을 주는지 이해

핵심 :

 - 단순히 예측하는 것이 아니라, 어떤 요인이 가격에 영향을 주는지 파악하고,

 - 그 영향이 얼마나 큰지(효과 크기) 알고자 함

 

ex) 좋은 뷰 -> 집값 상승

 

How do we estimate f ?

- training data {(x1, y1), (x2, y2), ... , (xn, yn)}에서 우리는 estimate f하기를 원한다.

- 2개의 접근 타입

    - parametric methods

    - non-parametric methods

 

Parametric methods

모델의 파라미트의 수가 정해져 있음

 

Step 1. 모델 가정 (Assumption a model)

 - 함수의 형태를 먼저 가정

 - ex) 선형 모델(linear model) 가정

 

Step 2. 모델 적합(fit the model)

 - 학습 데이터를 사용하여 가정한 모델의 파라미터 β0,β1,...,βp 를 추정

 - 일반적으로 최소제곱법(least squares) 사용

 

=> 선형 모델은 단지 p+1개의 계수만 추정하면 됨!

 

 

Non-parametric methods

모델의 파라미트의 수가 정해져 있지 않음

 

- 모델 형태에 대한 가정을 하지 않음

    - 함수 f의 정해진 수학적 형태를 미리 가정하지 않음

    - 데이터가 말해주는 대로 유연하게 모델링

 

- 장점 : 유연성(flexibility)가 높음, 훨씬 더 다양한 형태의 함수 f를 적합할 수 있음 (예: 비선형, 꺾인 함수 등)

- 단점 : 학습이 어렵고 복잡, 많은 양의 데이터가 필요함

 

-----------------------------------------------------------------------------------------------------------------------------------------

parametric vs non-parametric

-----------------------------------------------------------------------------------------------------------------------------------------

 

flexibility vs interpretability

 

Flexibility vs interpretability

- Simple models are easier to interpret

 ex) linear regression

 

 

너무 유연한 모델이면 오버피팅이 되어버림

728x90
반응형