이론 문제

  1. 다음 중 ReLU와 sigmoid에 대해 틀린 것을 고르시오

    1. 두 함수 모두 activation function이다.
    2. sigmoid의 경우 양 끝 부분에서 gradient가 0에 가까워지며 문제가 발생한다.
    3. sigmoid vanishing gradient를 개선하기 위해 ReLU가 만들어졌다.
    4. ReLU는 어떠한 상황에서도 문제가 발생하지 않는다. : 입력이 음수일 때 그래디언트가 0이 되어 학습이 진행되지 않는 "죽은 ReLU" 문제가 발생할 수 있습니다. : 리키델
    5. ReLU는 0보다 작을 땐 0을, 0보다 클 땐 자기 자신을 반환한다.
  2. 배치 정규화를 진행하는 이유를 서술하시오. : 배치 정규화는 네트워크의 각 층에서 입력 분포가 변하는 문제인 내부 공변량 변화(internal covariate shift)를 줄이기 위해 사용됩니다. 이는 학습 속도를 빠르게 하고, 높은 학습률을 사용할 수 있게 하며, 초기화에 덜 민감하게 만들고, 과적합을 줄이는 데에도 도움이 됩니다.

  3. n1과 n2가 다음과 같이 주어질 때 Xavier normal initialization의 분산을 구하시오.

    $$ n_{\text{in}}=3, n_{\text{out}}=5 $$

    Untitled

  4. 활성화 함수는 선형이다 (O / X) X (활성화 함수는 주로 비선형 함수를 사용합니다.)

  5. 인공 신경망의 능력을 높이기 위해서는 은닉층을 최대한 적게 넣어야 한다 (O / X) X (은닉층을 추가하는 것은 모델의 복잡도와 학습 능력을 높일 수 있습니다. 하지만 너무 많은 층은 과적합을 일으킬 수 있으므로 적절한 균형이 중요합니다.)

  6. 선형 함수로 은닉층을 추가해도 비선형 함수를 추가한 것과 같은 효과를 줄 수 있다 (O / X) (선형 함수로만 구성된 네트워크는 깊어질수록 여전히 선형 함수로 표현될 수 있으므로, 복잡한 패턴을 학습하는 데 한계가 있습니다.)

  7. 만일 선형 함수를 사용한다면 활성화 함수를 사용하는 층과 구분하기 위해서 어떤 표현을 사용하는지 구하시오. 선형 함수를 사용하는 층을 활성화 함수 층과 구분하기 위해, 보통은 "선형 층(linear layer)" 또는 "완전 연결 층(fully connected layer)" 또는 "밀집 층(dense layer)" 등의 용어를 사용합니다. 활성화 함수가 명시적으로 적용되지 않은 경우, 이러한 층은 기본적으로 선형 변환을 수행합니다.

  8. 시그모이드 함수의 문제점을 서술하시오. 그리고 이 문제를 보안하기 위한 함수의 종류를 서술하시오. 그래디언트 소실(vanishing gradient) 문제입니다. 함수의 출력이 0 또는 1에 가까워질 때 그래디언트가 매우 작아져, 깊은 네트워크에서 하위 층으로의 그래디언트 전파가 약해지는 문제가 발생합니다. 이를 보완하기 위해 ReLU(Rectified Linear Unit)와 같은 활성화 함수가 널리 사용됩니다. ReLU는 양의 입력에 대해선 선형적인 반응을 보이며, 음수 입력에 대해선 0을 반환하여 비선형성을 제공하면서도 그래디언트 소실 문제를 어느 정도 완화합니다. 그 외에 Leaky ReLU, Parametric ReLU, ELU(Exponential Linear Unit) 등의 변형된 ReLU 함수들도 문제 해결을 위해 사용됩니다.


실습 문제