문해 ch2) Feasibility of Learning (학습의 실현 가능성)

문제해결(머신러닝)

문해 ch2) Feasibility of Learning (학습의 실현 가능성)

chris3471 2025. 3. 26. 13:29

728x90

Learning the target function

- target function f = 학습 목표

-> f에 대한 중요한 정보는 알려지지 않음

- 자연스러운 질문

-> 어떻게 제한된 data set이 entire f를 결정하는데 충분한 정보를 보여줄까?

Inference outside training data (훈련 데이터 외부의 추론)

- 훈련 데이터(training data)를 넘어서 보지 않은 데이터(test) 에 대해 추론하는 능력 = 일반화 (generalization)

1. In training data D, we know the value of f on all points

- 훈련 데이터에서는 f(x)의 값을 다 알고 있음

- 하지만 이건 우리가 진짜 f라는 함수를 완전히 배웠다는 의미는 아님

- 그냥 암기만 했을 수도 있음

2. Key question : does D tell us anything outside D?

- 핵심 질문 : 훈련 데이터 외부의 데이터에 대해 뭔가 알려줄 수 있는가?

- 알려줄 수 있다면 -> 진짜 뭔가를 배운 것

- 그렇지 않다면 -> 학습이 불가능하거나 의미 없음

------------------------------------------------------------------------------------------------------------------------------

---------------------------------------------------------------------------------------------------------------------------

Hoeffding Inequality (수학적 불평등)

Rescue Plan : 학습을 "확률적 추론" 으로 구제

- 학습이 어려운 이유는 : 우리는 훈련 데이터 D만 알고, 전체 함수 f를 모름

- 그래서 전략을 바꿈 -> 정확하게 f를 알 수는 없지만, 높은 확률로 f에 근접한 것을 추정할 수 있으면 학습은 가능(feasible)

=> 결정론적 추정 대신, 확률적 추정으로 학습 가능성을 열어줌

A 'Bin' Experiment (구슬통 실험)

설정 :

1. 구슬통(bin)에 빨간색/초록색 구슬이 무한히 많이 있음

2. 빨간 구슬일 확률 : μ

3. 초록 구슬일 확률 : 1 - μ

-> 우리는 실제로 이 확률 μ를 모름

실험 :

1. 이 통에서 구슬 N개를 복원 추출(with replacement) 하여 관측

2. 샘플 안에서 빨간 구슬 비율 : μ^

-> 목표 : μ^를 통해 진짜 μ를 추정할 수 있을까?

μ^를 통해 진짜 μ를 추정할 수 있을까?

답 : 항상은 아니다 (샘플이 빨간색 위주로 나올 수도 있고, 초록색 위주로 나올 수도 있음)

그러나 확률적으로 보자면 샘플 수 N이 충분히 크면 μ^는 μ에 가까워질 가능성이 매우 높음

=> 이 사실을 수학적으로 정량화해 주는 게 바로 Hoeffding Inequality!!

Hoeffding Inequality

해석:

ϵ: 우리가 허용 가능한 오차
N: 샘플 수
위 확률은:
→ "샘플 평균이 진짜 평균보다 ϵ 이상 차이날 확률"은
→ N이 커질수록 빠르게 0에 수렴

🧠 핵심 아이디어:

적은 수의 표본으로는 불확실하지만,
많은 표본이 있을수록 우리가 모르는 진실(μ)에 점점 가까워질 수 있다!

Connection to Learning

- 구슬 문제에서는 단 하나의 숫자(확률)를 추정함

- 학습에서는 전체 함수를 추정해야 하니 훨씬 복잡함

=> but! 우리는 이 둘을 연결해서 분석 가능

Bin coloring ≡ Hypothesis h

- 하나의 가설 h∈H를 선택하면, 입력 x에 대해 h(x) 값을 줄 수 있음

-> h가 f에 가까울수록, 구슬통 전체의 빨간색 비율(오류율 μ)은 작아짐

그런데 전체를 못 보니까 샘플에서의 빨간색 비율(μ^)만 관측됨

Hoeffding 부등식을 통해 -> 샘플에서 작은 오류율이 전체에서도 작을 가능성이 높다고 판단

=> 학습 알고리즘은 다양한 가설 h 중에서 오류율이 낮은 h를 찾으려고 하는 것

------------------------------------------------------------------------------------------------------------------------------------

Are we done?

위의 예시는 한 가설에 대해 Hoeffding 부등식을 적용 but 현실에서는 ?

- 실제 머신러닝에서는 하나의 h를 평가하는 게 아님

- 우리는 수많은 가설 h1, h2, ..., hM ∈ H 중에서 하나를 선택해야 함

=> 즉, 우리가 관찰한 이 진짜 오류 Eout(h)를 대표하려면, 모든 가설 h∈H에 대해 동시에 적용 가능해야 함

728x90

'문제해결(머신러닝)' 카테고리의 다른 글

문해 ch1) ML이란? (0)	2025.03.26

현재글문해 ch2) Feasibility of Learning (학습의 실현 가능성)

chris3471 님의 블로그

chris3471 님의 블로그 입니다.

250x250

ses ai #ses #배터리 #리튬 #드론 #자동차,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

chris3471 님의 블로그