1. 개요
[math(\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\dfrac{QK^T}{\sqrt{d_k}}\right)V)]
인간의 집중을 모방하기 위해 만들어진 신경망 구조.집중할 수 있는 기능을 가지면 모두 어텐션 신경망이지만, 본 문서를 포함하여 주로 Attention is all you need 논문의 구현체를 의미한다.
Attention is all you need 논문을 기점으로 주목을 받기 시작해, 현재는 트랜스포머 모델의 흥행에 힘입어 주력 모델의 주요 기능으로 자리잡았다.