2000년대 초반부터, ConvNet은 이미지 내 객체와 영역 탐지, 분할 및 인식 작업에 큰 성공을 거두며 적용되어 왔다.

이러한 작업들은 교통 표지 인식, 연결체학 분야에서의 생체 이미지 분할, 자연 이미지 내 얼굴, 텍스트, 보행자 및 인체 탐지 등과 같이 라벨링된 데이터가 비교적 풍부한 분야에서 활발했다.

이미지는 픽셀 단위로 라벨링될 수 있으며, 이는 자율 이동 로봇과 자율 주행 자동차를 포함한 기술에 적용된다.

Mobileye와 NVIDIA와 같은 기업들은 이러한 ConvNet 기반 방법을 그들의 차세대 자동차 비전 시스템에 사용하고 있다.

중요성이 커지고 있는 다른 응용 분야로는 자연어 이해와 음성 인식이 있다.

이러한 성공에도 불구하고, ConvNet은 2012년 ImageNet 대회까지 주류 컴퓨터 비전 및 머신 러닝 커뮤니티에서 크게 외면 받았다.

약 100만 개의 웹 이미지로 이루어진 데이터 세트에 1,000개의 서로 다른 클래스를 포함한 심층 합성곱 신경망이 적용되었을 때, ConvNet은 다른 방법들에 비해 오류 비율이 절반정도 밖에 되지 않았다.

이러한 성공은 GPU의 효율적인 사용, ReLU, dropout이라 불리는 새로운 정규화 기법, 그리고 기존 데이터를 변형하여 더 많은 훈련 예시를 생성하는 기술 덕분이었다.

이 성공은 컴퓨터 비전 분야에 혁명을 일으켰으며, ConvNet은 거의 모든 인식 및 탐지 작업에서 지배적인 접근 방식이 되었고, 일부 작업에서는 인간의 성능에 근접한 결과를 보여주고 있다.

최근의 놀라운 시연으로는 ConvNet과 순환 신경망 모듈을 결합해 이미지 캡션을 생성하는 것이 있었다. (Fig 3).

최근의 ConvNet 구조는 10에서 20개의 ReLU 층을 가지고 있으며, 수억 개의 가중치와 유닛 간 수십억 개의 연결을 갖는다.

불과 2년 전만 해도 이렇게 큰 네트워크를 훈련하는 데 몇 주가 걸릴 수 있었지만, 하드웨어, 소프트웨어와 알고리즘 병렬화의 발전으로 훈련 시간이 몇 시간으로 단축되었다.