์ ๊ฒฝ๋ง์ ํํ์ ์จ์ด์๋ ์๋ง์ ํน์ง๋ค์ ์ฐพ์๋ด๊ธฐ ์ํด์ ์ต๊ทผ ์ฐ๊ตฌ๋๋ SAE ๊ธฐ๋ฒ์ ์ถ์ข ํ๊ธฐ ์ํด ์คํ์ ์งํํ์๋ค.
๋ชจ๋ธ์ ํํ์ ํด์ํ๋ค๋ ๊ฒ์ ํน์ ์กํฐ๋ฒ ์ด์ ํจํด์ด ์ง๋๋ ์๋ฏธ๋ฅผ ๋ฐ์ดํฐ์ ์ฐ๊ฒฐ ์ง๋ ๊ฒ์ด๋ค. ์ต๊ทผ ์๋ ค์ง ๋ฐ์ ๋ฐ๋ฅด๋ฉด ๋ชจ๋ธ์ด ํน์ง์ ์ ์ฅํ๊ธฐ ์ํด์ ๋ณต์ ๊ฐ์ ๋ด๋ฐ์ด ํน์ ํจํด์ ๋ง๋ค์ด์ ์ ์ฅํ๋ค๋ ๊ฒ์ด ์๋ ค์ก๋ค. ์ด ์ฌ์ค์ ๊ธฐ์กด์ binary์ ์ธ ๋ด๋ฐ์ ์ผ์ง๊ณ ๊บผ์ง๋ ํ์์ผ๋ก ํน์ง์ ์ ๋ฌด๋ฅผ ํ๋จํ๋ ๊ฒ์ ๋์ด์ ํน์ ์กํฐ๋ฒ ์ด์ ํจํด์ด ์๋ฏธ๋ฅผ ์ง๋๋ค๋ ์ฌ์ค์ ๋ํ๋ธ๋ค. ์ถ์ฝ๋ ์ฐจ์์ ์ ์ฅ๋ ๋ฌด์ํ ๋ง์ ํน์ง์ ์ฐพ๊ธฐ ์ํด์ ์ฐ๊ตฌ์๋ค์ด ์ฌ์ฉํ๋ ๋ฐฉ์์ dictionary learning์ด๋ค. ํน์ง์ธ ํจํด์ ์ง์ด๋ฃ๊ณ , ๋ค์ ๋ณต์ํ๋ ๊ฐ๋จํ ๋ฌธ์ ์์ ๋ด๋ถ์ ๋ฌด์ํ ๋ง์ feature๋ค์ ์ ์ฅํ๊ณ ์ ํํ๋ ๋ฐฉ์์, ๊ทธ๋ค์ linear sum์ด ์ ๊ฒฝ๋ง์ ํน์ง์ ๋ํ๋ธ๋ค๋ ๊ฐ์ ์ ๋ณด์ธ๋ค.
๋๋ ์ด ์ฐ๊ตฌ๋ฅผ ์ถ์ข ํ๊ธฐ ์ํด์ ์ฝ๋๋ฅผ ๊ตฌํํ๊ณ ์คํํ์๋ค. Wikipedia 10๋ง๊ฐ ๋ฌธ์์ ๋ํด์ Llama2์ activation์ ์์งํ์ฌ SAE ํ์ต์ ์งํํ์๋ค. ์ด ๋ถ๋ถ์ ๊ทธ ๊ธธ์์ ๊ฐ์ฅ ๊ฐ๋จํ ๊ตฌ์กฐ๋ก๋ถํฐ ๋ฌด์์ด ์๋๊ณ ์๋๋์ง ํ์ ํ๊ธฐ ์ํ ์ฐ๊ตฌ์๋ค. ์คํ ๊ฒฐ๊ณผ, ๋ชจ๋ธ์ ์ธต์ด ๋์์ง์๋ก Reconstruction์ด ์ ๋๋ก ์ผ์ด๋์ง ์์๊ณ , GatedSAE๋ ๋ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ด๋ Neuron Resampling๊ธฐ๋ฒ์ ์ ์ฉํ์ง ์์๊ธฐ ๋๋ฌธ์ ๊ทธ๋ฐ ๊ฒ์ด๋ค.
\(f(x) = ReLU(W_{enc} (x- b_{dec}) + b_{enc}) \\ \hat{x}(f) = W_{dec}f + b_{dec}\)
\[L(x) = || x - \hat{x}(f(x)) ||_2^2 + \lambda ||f(x)||_1\]where $1[\cdot >0]$ is the pointwise Heavyside step function and $\odot$ denotes elementwise multiplication. To reduce the number of weights, the authors set the weight \((W_{mag})_{ij} = (\exp(r_{mag}))_i \cdot (W_{gate})_{ij}\) where $r_{mag} \in \mathbb{R}^M$ is the rescaling parameter.
\[L_{incorrect}(x) = L(x) = || x - \hat{x}(f(x)) ||_2^2 + \lambda ||f_{gate}(x)||_1\]ํํ์ Dictionary learning์ผ๋ก ๊ฒฐํฉํ์์ ๋ ๋ณต์๋ ฅ
\[\Vert x - \hat{x}(f(x)) \Vert_2^2\]ํํ์ Dictionary learning์ผ๋ก ๊ฒฐํฉํ์์ ๋ ๋ณต์๋ ฅ์ ํ์ํ๋ ์์ดํ ๊ฐ์
L0 be the number of non zero features
\[L0 = \mathbb{E}_{X\sim D} \Vert f(x)\Vert_0\]ํํ์ Dictionary learning์ผ๋ก ๊ฒฐํฉํ์์ ๋ ๋ณต์๋ ฅ (๋ชจ๋ธ ์ฑ๋ฅ ๊ธฐ๋ฐ)
\[1 - \frac{CE(\hat{x} \cdot \hat{f}) - CE(ID)}{CE(\psi) - CE(ID)}\]where
cosine hard restart
๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ, ํ์ต์ ํจ๊ณผ๊ฐ ์ข์ง ์๋ค.ํน์ง์ด๋ผ๋ ๊ฒ์ ๊ฒฐ์ ์ ์ด๊ณ , ๊ณ ์ ์ ์ธ ์ฑ์ง์ ์ง๋ ์ผ ํ๋ค. ๋ค์๊ณผ ๊ฐ์ ์ฌ๊ณ ์คํ์ ์๊ฐํด๋ณด์.
์ ์ฒด ๊ณผ์ ์์ 2, 3๋ฒ์ ๋ฅ๋ฌ๋์ End-to-End ํ์ต์ ํตํด์ ์ ์ ํ Item ํํ๊ณผ selection์ ์ฐพ๋ ๊ณผ์ ์ด๋ค. ๊ทธ ๊ณผ์ ์์ Item์ ํํ์ด ์ ์ ํ์ง ์๊ฑฐ๋ selection๋ถ๋ถ์ด ์ ์ ํ์ง ์์ ์ ์๋ค.
๋ ์ด์ด๊ฐ ๋์์ง์๋ก ํ์ต๋์ง ์์๋ ๊ฒ์ ๋ ๊ฐ์ง ๋ชจ๋ ์ํฅ์ ๋ผ์น๋ ๊ฒ์ผ๋ก ํ์ธ๋๋ค. ์ฆ, ๋ ์ด์ด๊ฐ ์ฌ๋ผ๊ฐ๋ฉด์ ๋ค์ ๋ฌธ์ ๊ฐ ์๊ธด๋ค.
๋ณต์กํ ๋ ์ด์ด์ ํํ๊ณต๊ฐ์ ๋ํด์ ์ ์ ํ Primitive component๋ฅผ ์ฐพ์ ์ ์๋๊ฐ? (No)