EverGiver
2장 본문
728x90
- 실제 데이터로 작업하기
- 큰 그림 보기
2.1 문제 정의
ⅰ) 구역의 중간 주택 가격에 대한 예측
- 레이블된 훈련 샘플이 있으니 (각 샘플이 기대 출력 값, 즉 구역의 중간 주택 가격을 가지고 있다) 전형적인 지도 학습 작업
- 값을 예측해야 하므로 전형적인 회귀 문제 → 예측에 사용할 특성이 여러 개(구역의 인구, 중간 소득 등)이므로 다중 회귀 문제이다.
- 각 구역마다 하나의 값을 예측하므로 단변량 회귀 문제이다.
cf) 만약 각 구역마다 여러 값을 예측한다면 다변량 회귀 문제이다.
- 시스템으로 들어오는 데이터에 연속적인 흐름이 없으므로 빠르게 변하는 데이터에 적응하지 않아도 되고, 데이터가 메모리에 들어갈 만큼 충분히 작으므로 일반적인 배치 학습이 적절하다.
2.2 성능 측정 지표 선택
ⅰ) 평균 제곱근 오차 (root mean square error) (RMSE)
- m : RMSE를 측정할 데이터셋에 있는 샘플 수
- x(i) : 데이터셋에 있는 i번째 샘플(레이블을 제외한)의 전체 특성 값을 벡터
- y(t) : 해당 레이블(해당 샘플의 기대 출력 값)
- X : 데이터셋에 있는 모든 샘플의 모든 특성 값(레이블은 제외)을 포함한 행렬
- h : 시스템의 예측 함수며 가설(hypothesis)이다.
- RMSE(X, h) : 가설 h를 사용하여 일련의 샘플을 평가하는 비용 함수 ⅱ) 평균 절대 오차 (mean absolute error)
728x90
Comments