11주차 (cha9)

Cha 9-1 순차 데이터와 순환 신경망

순차 데이터

순서에 의미가 있는 데이터 ex. 텍스트 데이터, 시계열 데이터
순차 데이터는 신경망에 주입할 때 순서를 유지해야 한다
순차 데이터를 처리하는 신경망은 이전에 입력한 데이터를 기억하는 기능이 필요하다 cf. CNN과 ANN은 입력 데이터를 기억하는 기능이 없는 ‘피드포워드 신경망(Feedforawrd neural network)’이다

순환 신경망 (Recurrent Neural Network)

일반적인 ANN 구조에서 뉴런의 출력이 다시 뉴런으로 전달되는 특징을 가지고 있다
어떤 샘플을 처리할 때 바로 이전에 사용했던 데이터를 재사용한다
은닉층의 활성화 함수로 ‘하이퍼볼릭 탄젠트 함수’를 사용한다

Untitled

ANN과 다르게 뉴런에서 가중치를 하나 더 가지고 있다. 해당 가중치는 이전 타임스텝의 은닉 상태에 곱해지는 가중치이다.

Untitled

관련 용어

타임스탭 (Timestep) : 샘플을 처리하는 한 단계
셀 (Cell) : RNN에서는 하나의 층을 ‘셀’이라고 부른다
은닉 상태 (Hidden State) : 셀의 출력을 의미한다

순환 신경망 주요 개념

순환층에 있는 각 뉴런의 출력(은닉상태)는 서로에게 전달된다
순환층에 입력되는 샘플은 보통 2차원 이다 - ‘시퀀스 길이’와 ‘단어 표현’

주요 용어 - 시퀀스(Sequence): 하나의 샘플을 지칭한다
- 시퀀스의 길이: 시퀀스 안에 있는 여러개의 단어(아이템)을 뜻하며, 타임스텝의 길이가 이에 해당한다.
순환층은 기본적으로 마지막 타임스텝의 은닉 상태만 출력한다. 단, 순환층이 여러개 일때 ‘마지막 순환층’만 ‘마지막 타임스텝의 은닉 상태’를 출력하고, 나머지 순환층은 모든 타입스텝의 은닉 상태를 출력한다.
CNN처럼 RNN도 마지막에 밀집층을 두어 클래스를 분류한다 이진 분류 → 시그모이드 함수를 활성화 함수로 사용 다중 분류 → 소프트맥스 함수를 활성화 함수로 사용

Cha 9-2 순환 신경망으로 IMDB 리뷰 분류하기

텍스트 데이터 전처리 기초

자연어 처리(NLP) 분야에서 훈련 데이터를 종종 ‘말뭉치(corpus)’라고 부른다
신경망에 텍스트 자체를 전달하지 않고, 숫자로 변형하여 전달한다 cf. 단어에 매핑되는 정수는 단어의 의미나 크기와 아무 관려이 없다

Untitled

토큰(token)은 ‘문장에서 분리된 각 단어’를 의미한다. 하나의 샘플은 여러 개의 토큰으로 이루어져 있고, 1개의 토큰이 하나의 타임스텝에 해당한다 cf. 영어: 문장을 모두 소문자로 바꾸고 구둣점을 삭제한 후 공백을 기준으로 분리한다 cf. 한글: 조사 때문에 영어처럼 쉽게 토큰을 만들 수 없다. 따라서 형태소 분석을 통해 토큰을 만든다.

토큰에서 특정 용도로 사용되는 정수들

‘0’: 패딩
‘1’: 문장의 시작
‘2’: 어휘 사전에 없는 토큰 cf. 어휘 사전: 훈련 세트에서 고유한 단어를 뽑아 만든 목록

토큰 형성 실습 코드

from tensorflow.keras.datasets import imdb
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.sequence import pad_sequences

(train_input, train_target), (test_input, test_target) = imdb.load_data(num_words=500)
train_input, val_input, train_target, val_traget = train_test_split(train_input, train_target, test_size=0.2, random_state=42)

# 패딩을 하거나 데이터를 잘라서 각 시퀀스의 데이터 길이를 맞추어 준다
train_seq = pad_sequences(train_input, maxlen=100)

시퀀스의 길이가 다를 때, ‘패딩’을 하거나 ‘시퀀스의 일부 데이터를 자르기’로 길이를 맞춘다. 패딩: 정수 0을 이용하여 값을 채운다 ex. [15, 2, 63, 12, 6, 24] → [0, 0, 0, 15, 2, 63, 12, 6, 24]
시퀀스의 데이터를 맞출 때, 일반적으로 시퀀스 뒷부분의 데이터를 보존하는 방향으로 전처리 한다. 시퀀스의 앞부분보다 뒷부분의 정보가 더 유용하리라 기대하기 때문이다.
시퀀스의 마지막에 있는 단어가 셀의 은닉 상태에 가장 큰 영향을 미치게 되므로, 일반적으로 처음에 패딩을 추가하는 것을 선호한다

순환 신경망 실습

keras를 이용하여 순환 신경망 구현 및 훈련 평가를 진행한다

데이터 전처리 코드

from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split
from tensorflow.keras.datasets import imdb

(train_input, train_target), (test_input, test_target) = imdb.load_data(num_words=500)
train_input, val_input, train_target, val_traget = train_test_split(train_input, train_target, test_size=0.2, random_state=42)

# 패딩을 하거나 데이터를 잘라서 각 시퀀스의 데이터 길이를 맞추어 준다
train_seq = pad_sequences(train_input, maxlen=100)
val_seq = pad_sequences(val_input, maxlen=100)

train_oh = keras.utils.to_categorical(train_seq) # 정수 배열을 자동으로 '원핫 인코딩' 해준다
val_oh = keras.utils.to_categorical(val_seq)

keras를 이용한 RNN 구현

# sequential 클래스를 활용한 순환 신경망 형성
from tensorflow import keras

model = keras.Sequential()
model.add(keras.layers.SimpleRNN(8, input_shape=(100, 500))) 
# SimpleRNN 클래스로 '순환층'을 사용할 수 있다. 활성화함수는 tanh으로 기본 설정되어 있다
# 100은 샘플의 길이를 의미하고, 500은 전체 샘플에 존재하는 단어 종류의 개수를 의미한다
model.add(keras.layers.Dense(1, activation='sigmoid'))

model.summary()

캡처.PNG

RNN 모델 훈련

# 모델 최종 구현
rmsprop = keras.optimizers.RMSprop(learning_rate=1e-4)
model.compile(optimizer=rmsprop, loss='binary_crossentropy', metrics=['accuracy'])

# 콜백
checkpoint_cb = keras.callbacks.ModelCheckpoint('best-simplernn-model.h5', save_best_only=True)
early_stopping_cb = keras.callbacks.EarlyStopping(patience=3, restore_best_weights=True)

# 모델 훈련
history = model.fit(train_oh, train_target, epochs=100, batch_size=64, validation_data=(val_oh, val_target), callbacks=[checkpoint_cb, early_stopping_cb])

모델 훈련 결과

# '훈련 손실'과 '검증 손실' 시각화
import matplotlib.pyplot as plt

plt.plot(history.history['loss'])
plt.plot(history.history['val_loss'])
plt.xlabel('epoch')
plt.ylabel('loss')
plt.legend(['train', 'val'])
plt.show()

Untitled

20 epoch 부터 validation data의 손실 함수 값의 감소가 둔해졌다. 따라서 20 epoch가 적당한 훈련 횟수로 해석할 수 있다.

단어 임베딩(word embedding)

각 단어를 고정된 크기의 실수 벡터로 바꾸어 주는 방법
원-핫 인코딩에 비해 메모리를 상당히 효율적으로 사용한다