<aside>
๐ก Preliminaries
</aside>
Attention์ด๋
<aside>
๐ก Summary
paper | code
</aside>
0. Abstract

![์ถ์ฒ: [1]](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/068b47b6-cdd7-4370-a56e-1a13604b8306/Untitled.png)
์ถ์ฒ: [1]

- Seq2Seq ๋ชจ๋ธ(NIPS 2014)์ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฆ
- Attention ๊ธฐ๋ฒ์ RNN์ ๋ณด์ ์ฉ๋๊ฐ ์๋ ์ง์ ์ด์ฉํด ์ธ์ฝ๋ ๋์ฝ๋ ์ค๊ณ
- Seq2Seq์์ RNN์ ์ด์ฉํด ํ๊ฐ์ฉ ์กด์ฌํ๋ Encoder Decoder๊ฐ ๊ฐ๊ฐ n๊ฐ์ฉ ์กด์ฌํ ์ ์์
1. ์ฃผ์ Hyper-parameters
- $d_{model}$ - ์ธ์ฝ๋ ๋์ฝ๋์ ์
์ถ๋ ฅ ํฌ๊ธฐ (default: 512)
- $num\_layers$ - ์ธ์ฝ๋์ ๋์ฝ๋๊ฐ ์์ธ ์ธต์ ๊ฐ์ (default: 6)
- $num\_heads$ - ์ดํ
์
์ ์ฌ๋ฌ๊ฐ๋ก ๋ถํ ํด์ ๋ณ๋ ฌ๋ก ์ํํ๊ฒ ๋๋๋ฐ, ์ด๋ ๋ณ๋ ฌ์ ์ (default: 8)
- $d_{ff}$ - feed forward layer์ ํฌ๊ธฐ (์
์ถ๋ ฅ ํฌ๊ธฐ๋ $d_{model}$) (default: 2048)
2. Input Word Embedding

- ๊ฐ์ฅ ์ฒซ๋ฒ์งธ ์ธ์ฝ๋์ ์
๋ ฅ ์ผ๋ก์๋ง ์ฌ์ฉ๋๋ฉฐ, ๊ทธ ์ดํ์ ์ธ์ฝ๋๋ค์ ๋ฐ๋ก ์ง์ ์ธ์ฝ๋์ ์ถ๋ ฅ์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉ ํจ
- ์ผ๋ฐ์ ์ผ๋ก Word Embedding, Glove, Fastext ๋ฑ์ ์ฌ์ฉํด ์
๋ ฅ๋จ์ด์ ๋ํ Embedding๊ฐ์ผ๋ก ํํํจ (๋
ผ๋ฌธ์์๋ 512์ฐจ์์ ์ฌ์ฉ)
- Embeddingํ ๊ฐ๋ค์ ์๋ฒ ๋ฉ ์ฌ์ด์ฆ์ ์ ๊ณฑ๊ทผ($\sqrt{d_{model}}$)๋งํผ ๋๋์ด์ง๋ ์ค์ผ์ผ๋ง ๊ณผ์ ๊ฑฐ์นจ