본문 바로가기

Theory/basic_theroy

(2)

RNN(vanilla에서 attention까지) (2) - RNN의 문제점과 lstm 오늘은 RNN의 문제점 지난번에 포스팅했듯이 RNN은 반복해서 기울기 값이 곱해지기 때문에 그 값이 1보다 클 경우 exploding문제가 생기고, 1보다 작을 경우 gradient vanishing 문제가 생긴다. exploding 할 경우 clipping 기법으로 해결 할 수 있지만, gradient vanishing문제는 쉽게 해결 할 수 없어 RNN의 구조를 바꾸기로 한다. 1. RNN의 back propagation과 gradient vanishing 문제 2. LSTM RNN 가. Forget gate Forget gate는 과거의 정보를 저정하는 gate로 sigmoid형태로 정보를 저장, cell state에 넘겨주게 된다. 나. Input gate lstm rnn은 activation f..

RNN(vanilla에서 attention까지) (1) RNN은 CNN과 더불어 가장 많이 연구된다. 흔히 Vision 연구를 하려면 CNN을 NLP 연구를 하려면 RNN을 주로 다룬다. 오늘은 RNN이 어떻게 탄생했고, 어떤 방향을 발전하고 있는 지 포스팅하겠다. Sequence data를 다루고 싶다 -> RNN의 등장 Backpropagation 중 문제가 생김(explode, gradient vanishing) -> LSTM,GRU의 등장 완전히 long-term dependency를 해결하지 못함 -> Attention 매커니즘의 등장 구조를 바꾸면 RNN이 아니라 다른 분야에서도 사용할 수 있다 -> Transformer의 등장 1. RNN(Recursive Neural Network) RNN은 순서(sequence)가 있는 데이터 처리에 특화되어..

티스토리툴바