self1

CH 04-1. Attention mechanism Attention mechanism이 전 챕터까지 RNN, GNU에 대해서 계속 학습해왔다. 이 모델들의 단점은 sentence가 길어지면 성능이 낮아지는 현상이 나타난다는 것이다. 그리고 이 현상을 너무 많은 정보가 하나의 노드로 들어가다 보니 bottle-neck현상이 일어난 것이 아닐까 보고 있다.기존에 RNN, GNU 등의 성능이 좋지 않았던 이유는 결국 Encoder의 역할이 너무 많아서 Context vector가 모든 정보를 함축하지 못한다는 것이었다(LSTM, GRU를 써도 초기 정보가 희석된다). Context computing을 따로 하자. Encoder의 모든 feature를 사용하자. → Attention mechanism이 제시가 되었다.Input과 output의 관계를 잘 고려하.. 의료 AI(딥러닝) 공부 일기 2024. 8. 1.

이전 1 다음

티스토리툴바