์ ๋ ฅ $x = (x_1, x_2, \cdots, x_n)$ ์ ๋ํด์ softmax ๋ $z=(z_1,z_2, \cdots, z_n)$ ๋ฅผ ๋ด๋ณด๋ด๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ด ์ฐ์ฌ์ง ์ ์๋ค.
\(z_i = \sum_{j=1}^n \frac{\exp (\alpha_{ij})}{\sum_{j^'=1}^n \exp (\alpha_{ij^'}} (x_j W^V)\) where \(\alpha_{ij} = \frac{1}{\sqrt{d}}(x_i W^Q)(x_j W^V)^\top\)
์ฃผ์ด์ง position ์ ๋ณด๋ก ๋ชจ๋ธ์ ํ ํฐ ์์น๋ฅผ ๊ตฌ๋ถํ ์ ์๋ค. absolute positional encoding ์ ์ฃผ์ด์ง ๋จ์ด ์๋ฒ ๋ฉ $w_i\in \mathbb{R}^d$์ position ์ ๋ณด $p_i\in \mathbb{R}^d$๋ฅผ ๋ํ๋ ๋ฐฉ์์ผ๋ก ์ฐ์ฐ๋๋ค.
\(x_i = w_i + p_i\) ์ด๋ก๋ถํฐ self-attention ๋ชจ๋์ ๋ค์๊ณผ ๊ฐ์ด ์ฐ์ฌ์ง ์ ์๋ค.
\[\alpha_{ij} = \frac{1}{\sqrt{d}}((w_i + p_i) W^Q)((w_j + p_j) W^V)^\top\]์ฃผ์ด์ง $p_i$ ๋ ๋ฏธ๋ฆฌ ์ ํด์ง์๋ ์๊ณ , ํ์ต์ผ๋ก ๋ฐ๋ ์๋ ์๋ค. ๊ด๊ฑด์ $p$๋ฅผ ์ค๊ณํ๋ ๋ฐฉ์์ ์ํด์ ์ด๋ค ํน์ง์ด ๋ํ๋๋์ง ์ดํดํด์ผ ํ๋ค. position์ ๋ฒกํฐ๋ฅผ ์ ํ๋ค๋ฅธ ๊ณต๊ฐ์ผ๋ก ๋งตํํ๋์ง ์๋๋ฉด ์ํ์ง๋์ง ์๊ณ ์ถ๋ค. ๋ฌผ๋ก sinusoidal positional encoding์ ๊ฒฝ์ฐ, ์ฐจ์์ ๋ท๋ถ๋ถ์ผ๋ก ๊ฐ์๋ก ์๊ทธ๋ ์์ฒด๊ฐ ์ฝํด์ง๋ฏ๋ก ์ ๋ถ๋ถ์ด position์ ์ํฅ์ ๋ฐ๋ ๊ณต๊ฐ์ ํ์ฑํ๋ค.
์๋์ ์ธ ๋จ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ ๋ คํ์ง ๋ชปํ๋ ๋จ์ ์ด ์๋ค. (Shaw et al. 2018)
\[\alpha_{ij} = \frac{1}{\sqrt{d}}((x_i) W^Q)((x_j + a_{j-i}) W^V)^\top\]where $a_{j-i} \in \mathbb{R}^d$ is learnable parameter.
T5 (Rafael 2019) ์์๋ relative position์ query key ์ฐ์ฐ์์ ์ ๊ฑฐํ์๋ค.
\[\alpha_{ij} = \frac{1}{\sqrt{d}}((x_i) W^Q)((x_j) W^V)^\top + b_{j-i}\]์ฌ๊ธฐ์ $b_{j-i} \in \mathbb{R}$ ์ scalar์ด๋ค.
Sinusoidal ์ ๊ฐ์
\[PE(t, 2i) = \sin (t \cdot \frac{1}{10000}^{\frac{2i}{d}}) \\ PE(t, 2i+1) = \cos (t \cdot \frac{1}{10000}^{\frac{2i}{d}})\]๋ฐ๋ผ์, $2\pi$ ๋ถํฐ $2\pi \cdot 10000$ ๊น์ง wavelength๊ฐ ์กด์ฌํ๋๋ก ๊ฐ์ . ๊ณ ์ฐจ์์ผ๋ก ๊ฐ์๋ก position์ ๋ํด์ ํฌ๊ฒ ๋ณํ์ง ์๋ vector ๋ฅผ ๊ฐ์ง๋ค.