목록전공/머신러닝 (2)
EverGiver
실제 데이터로 작업하기 큰 그림 보기 2.1 문제 정의 ⅰ) 구역의 중간 주택 가격에 대한 예측 - 레이블된 훈련 샘플이 있으니 (각 샘플이 기대 출력 값, 즉 구역의 중간 주택 가격을 가지고 있다) 전형적인 지도 학습 작업 - 값을 예측해야 하므로 전형적인 회귀 문제 → 예측에 사용할 특성이 여러 개(구역의 인구, 중간 소득 등)이므로 다중 회귀 문제이다. - 각 구역마다 하나의 값을 예측하므로 단변량 회귀 문제이다. cf) 만약 각 구역마다 여러 값을 예측한다면 다변량 회귀 문제이다. - 시스템으로 들어오는 데이터에 연속적인 흐름이 없으므로 빠르게 변하는 데이터에 적응하지 않아도 되고, 데이터가 메모리에 들어갈 만큼 충분히 작으므로 일반적인 배치 학습이 적절하다. 2.2 성능 측정 지표 선택 ⅰ) 평..
머신러닝이란? : 데이터에서부터 학습하도록 컴퓨터를 프로그래밍하는 과학(또는 예술)이다. - 공학적 정의 : 어떤 작업 T에 대한 컴퓨터 프로그램의 성능을 P로 측정했을 때 경험 E로 인해 성능이 향상됐다면, 이 컴퓨터 프로그램은 작업 T와 성능 측정 P에 대해 경험 E로 학습한 것이다. - 용어 º 훈련 세트 (training set) : 시스템이 학습하는 데 사용하는 샘플 º 훈련 사례 (training instance) / 샘플 : 각 훈련 데이터 º 예시 - 스팸 필터 ⅰ) 작업 T : 새로운 메일이 스팸인지 구분 ⅱ) 경험 E : 훈련 데이터 ⅲ) 성능 측정 P : 정확히 분류된 메일의 비율(직접 정의) → 정확도 왜 머신러닝을 사용하는가? - 스펨 필터 - 너무 복잡하거나 알려진 알고리즘이 없..