본문 바로가기

Theory/basic_theroy

RNN(vanilla에서 attention까지) (2) - RNN의 문제점과 lstm

오늘은 RNN의 문제점

 

지난번에 포스팅했듯이 RNN은 반복해서 기울기 값이 곱해지기 때문에 그 값이 1보다 클 경우 exploding문제가 생기고, 1보다 작을 경우 gradient vanishing 문제가 생긴다. exploding 할 경우 clipping 기법으로 해결 할 수 있지만, gradient vanishing문제는 쉽게 해결 할 수 없어 RNN의 구조를 바꾸기로 한다.

1. RNN의 back propagation과 gradient vanishing 문제

2. LSTM RNN

Forget gate, Input gate, Output gate가 추가된 LSTM과 그 구조가 더 간단해진 GRU

가. Forget gate

Forget gate는 과거의 정보를 저정하는 gate로 sigmoid형태로 정보를 저장, cell state에 넘겨주게 된다.

나. Input gate

lstm rnn은 activation function으로 tanh를 받는다.

 

다. Output gate

'Theory > basic_theroy' 카테고리의 다른 글

RNN(vanilla에서 attention까지) (1)  (0) 2022.08.30