머신 러닝 ch1) 통계적 학습 개요
통계적 학습이란 (Statistical learning) ?
- 데이터를 이해하고 분석하기 위한 도구들
학습의 종료
1. 지도 학습 (supervised)
- 주어진 데이터 (X, Y)를 바탕으로 Y를 예측하거나 추정하는 모델을 구축하는 것이 목표
- 즉, 입력 X로부터 출력 Y를 예측
2. 비지도 학습 (unsupervised)
- 입력 X만 주어지고, 데이터의 내부 구조를 파악하는 것이 목표
지도 학습의 예시 : 임금 데이터 분석
- 데이터 : 3000명의 근로자에 대한 데이터로, 12개의 변수(나이, 성별, 결혼 여부, 인종 등)가 포함
- 목표 변수 Y : 임금(Wage)
- 입력 변수 : 나이, 성별, 교육 수준 등
질문 :
1. 노동자의 나이를 알면 임금을 얼마나 정확히 예측할까 ?
2. 학력 수준이 임금과 얼마나 관련이 있을까?
-> wage와 다른 요인들이 무슨관계가 있는지를 찾기
=> Plotting is a first step!!
회귀분석(Regression, Chapter 3) 사용 가능
- 목표 : 연속형 변수 Wage를 예측하는 함수 f(X) 찾기
여러 개의 예측 변수를 사용한 다중 회귀 모델을 통해 Y ~ f(X1, X2, X3)로 예측
지도 학습의 예시 : S&P 주식 시장 데이터
- 목표 : 범추형 출력(상승 or 하락)을 과거 주식 데이터를 기반으로 예측하여 상승할지 하락할지 분류
- 특징 X : 과거의 주식 수익률 비율, 거래된 수식량 등
- 목표 Y : 주식 시장의 방향(상승 or 하락)
-> 과거와 현재 사이에 명확한 연관이 없음 (learning은 항상 작동하는 것이 아님)
비지도 학습의 예시 : 유전자 발현 데이터
- 데이터 : 64개의 암 세포주에서 6830개의 유전자 발현 수준
- 목표 : 고차원 데이터를 분석하여 내부 패턴을 찾는 것
- 도전 과제 : 데이터의 차원이 매우 커서 분석이 어려움
- 해결 방법 : 차원 축소 기법 (Dimension reduction technique)을 사용하여 의미 있는 방향을 찾아 데이터를 저차원으로 시각화 (Chapter 12)