1.2 딥러닝 이전 : 머신 러닝의 간략한 역사

간단하게 전통적인 머신 러닝 방법의 역사적 배경을 설명하여, 딥러닝이 왜 중요한지 이해해보자.

**확률적 모델링(probabilistic modeling)**이란 통계학 이론을 데이터 분석에 응용한 것이다. 초창기에 사용된 머신러닝 형태 중 하나이며 요즘도 사용된다. 잘 알려진 확률적 모델링 알고리즘은 **나이브 베이즈(Naive Bayes)**알고리즘 이다.

나이브 베이즈 알고리즘은 모든 입력 데이터의 특성이 독립적이라고 가정하고 베이즈 정리를 적용한 머신 러닝 분류 알고리즘 이다.

나이브 베이즈 알고리즘과 연관된 모델이 로지스틱 회귀이며, 이 모델은 현대 머신러닝의 Hello World로 불린다. 로지스틱 회귀 알고리즘은 회귀(regression)이 아닌 분류(classification) 알고리즘이다.

나이븝 베이즈 알고리즘은 데이터 과학자가 분류 작업의 감을 빠르게 얻고 싶을 때 가장 먼저 선택하는 알고리즘이다.

신경망의 핵심 아이디어는 1950년대에 시작됐지만 본격적으로 시작되기 까지는 수십년이 걸렸으며, 1980년대 중반에 와서 제각기 다른 역전파 알고리즘을 재발견하고 이를 신경망에 적용하며 상황이 바뀌었다.

이 알고리즘은 경사 하강법 최적화를 사용해서 연쇄적으로 연결된 변수들을 훈련시킨다.

1980년대의 성공에 힘입어서 1990년대에 신경망이 어느정도 관심을 얻기 시작했지만 머신 러닝의 새로운 방법인 커널 방법이 등장하면서 신경망은 빠르게 잊혀졌다.

커널 방법은 분류(classfication) 알고리즘 중 하나이며 그 중에서는 **서포트 벡터 머신(Support Vector Machine, SVM)**이 가장 유명하다.

SVM은 분류 문제를 해결하기 위해서 2개의 다른 범주에 속한 데이터 그룹간의 **결정 경계(decision boundary)**를 찾는다. 분류를 하고 나서 사용자는 새로운 데이터가 어느 그룹에 속하는지만 확인하면 된다.

SVM은 두가지 방법을 통해 결정 경계를 찾는데,

하나의 초평면(hyperplane)으로 표현될 수 있는 고차원 표현으로 데이터를 매핑한다(2차원일 경우 직선).
초평면과 각 클래스의 가장 가까운 데이터 포인트 사이의 거리가 최대가 되는 최선의 결정 경계를 찾는다. 이 과정을 **마진 최대화(maximizing the margin)**라고 부른다. 이는 결정 경계가 훈련 데이터셋 이외의 새로운 샘플에 잘 일반화되도록 도와준다.

SVM은 상당한 인기를 끌었다.

하지만 SVM은 대용량의 데이터셋에 확장되기 어렵고 이미지 분류같은 지각에 관련된 문제에서 좋은 성능을 내지 못했다. SVM을 지각에 적용하려면 유용한 표현을 추출해야하는데(특성 공학), 이는 매우 어렵고 불안정 하다.