손실 함수의 1차 테일러 전개로부터 음의 그래디언트 방향이 최급강하 방향임을 보이고, 배치·확률적·미니배치 변형과 모멘텀·Adam까지의 흐름을 정리한다.
#neural-network
3개 글
Attention Is All You Need가 제안한 Transformer 아키텍처를 어텐션 메커니즘, 인코더-디코더 구조, 위치 인코딩, 복잡도 분석 관점에서 정리한다.
다층 신경망을 통한 표현 학습 — 퍼셉트론에서 Transformer까지, 그리고 강화 학습과 응용까지 이어지는 학습 경로.