손실 함수의 1차 테일러 전개로부터 음의 그래디언트 방향이 최급강하 방향임을 보이고, 배치·확률적·미니배치 변형과 모멘텀·Adam까지의 흐름을 정리한다.
딥러닝
2개 글
Attention Is All You Need가 제안한 Transformer 아키텍처를 어텐션 메커니즘, 인코더-디코더 구조, 위치 인코딩, 복잡도 분석 관점에서 정리한다.
손실 함수의 1차 테일러 전개로부터 음의 그래디언트 방향이 최급강하 방향임을 보이고, 배치·확률적·미니배치 변형과 모멘텀·Adam까지의 흐름을 정리한다.
Attention Is All You Need가 제안한 Transformer 아키텍처를 어텐션 메커니즘, 인코더-디코더 구조, 위치 인코딩, 복잡도 분석 관점에서 정리한다.