μ£Όμ΄μ§ λ¨μ΄ μλ² λ© κ³΅κ° $E={e_1, e_2, \cdots, e_V}$μ λν΄μ λ¬Έμ μν°λ§ν¬ μλ² λ©$W={w_1, w_2, \cdots, w_M}$ where $w_j \sim \mathcal{N}(0, \sigma)$ μ λ¨μ΄ μλ² λ© κ³΅κ°μ λν΄μ μΆ©λΆν μμ variance λ₯Ό κ°μ ΈμΌ νλ€. μλ² λ© $e_i$ μ λ¬Έμ μν°λ§ν¬ $w_j$ λ₯Ό μ λ ₯μ λ£λ κ²½μ°λ₯Ό κ°μ νμ.
\[\hat{e}_i = e_i + w_j\]λ§μΌ $w_j$ μ ν¬κΈ°κ° $e_i$ λ€μ ꡬλΆνλ κ±°λ¦¬λ³΄λ€ ν¬λ€λ©΄, λλ€νκ² λ½μ $w_j$λ€μ λ€λ₯Έ λ¨μ΄μ μλ² λ©μ μΉ¨λ²νκ² λλ€. λ°λΌμ λ¬Έμ μν°λ§ν¬μ λν΄μλ λ€μκ³Ό κ°μ ν¬κΈ°μ μ μ½μ΄ νμνλ€.
\[|e_k - e_i | > |w_j|\]μλ κ·Έλ¦Όμ λ¨μ΄ μλ² λ© κ³΅κ°μμ λ¬Έμ μν°λ§ν¬μ ν¬κΈ°μ λ°λ₯Έ μμ μΉ¨λ²μ 보μ¬μ€λ€.
GPTλ₯Ό νμ΅νλ κ³Όμ μμ λ¨μ΄ μλ² λ© κ³΅κ°μ μ λ°μ΄νΈ λλ―λ‘ κ³ μ κ°μ΄ μλλ€. μ΄μ λ°ν΄ λ¬Έμ μν°λ§ν¬λ κ³ μ κ°μ κ°μ νκ³ μλ€. λ°λΌμ νμ΅ κ³Όμ μμ λ¬Έμ μν°λ§ν¬λ₯Ό λ£λλ€λ©΄, μ μλΉμ΄ μΆ©λΆν μμ κ°μ κ³ μ μ μΌλ‘ μ€μΌ νλ€. (λ¬Όλ‘ , λ¬Έμ μν°λ§ν¬ ννλ differential νκ² νμ΅νλ λ°©μμ κ³ λ €ν μ μμ κ²μ΄λ€.)
μ΄ κ²½μ°, κ°λ₯ν λ°©μμ λ¬Έμ μν°λ§ν¬κ° the unit $d-1$-sphere μ μ‘΄μ¬νλ©°, μΆ©λΆν μμ $\alpha$ λ₯Ό κ°μ§ 곡κ°μ λλ κ²μ΄λ€. μ΄λ κΈ°μ‘΄ μ°κ΅¬μ κ΄μ κ³Ό λμΌνλ€. μ μ ν magnitude μ λν΄μλ μμ§ λ°νλ΄μ§ λͺ»νλ€.
\[W = \{w \in \mathbb{R}^d | w_1^2 + w_2^2 + \cdots + w_d^2 = \alpha\}\]μλ κ·Έλ¦Όμ νμ΅ μ νλ‘ κ³ μ λ unitary sphere μ λ¬Έμ μν°λ§ν¬μ μλ² λ© κ³΅κ°μ 보μ¬μ€λ€. κ΅³μ΄ unitary sphere λ₯Ό μ°λ €λ μ΄μ λ normal distributionμ κ²½μ° κ·Έ κ°μ λ²μκ° λ¬΄νλμ΄κΈ° λλ¬Έμ΄λ€.
Unitary Sphere μ λν΄μλ μ’λ λ Όμκ° νμνλ€. μ΄ μ€νμμλ normal distribution μμ std λ₯Ό μ μ΄ν¨μΌλ‘μ¨ νμ΅ μ±λ₯μ λ³νλ₯Ό μ΄ν΄λ΄€λ€. std κ° μ¦κ°ν μλ‘ μ΄κΈ°νλ μλ² λ© κ³΅κ°μ λλ λ¬Έμ μν°λ§ν¬κ° μ‘΄μ¬νλ©°, νμ΅μ λΆμμ μ±μ΄ 컀μ§λ€.
μλ² λ© κ³΅κ°μ λ¨μ΄μ λ¬Έμμ μ 보λ₯Ό λ£λ κ²μ λ μ€ νλμ ν¬κΈ°κ° μλμ μΌλ‘ μμ λ κ°λ₯νλ€. μ¬κΈ°μλ λ¨μ΄ μλ² λ©μ κΈ°μ€μΌλ‘ λ¬Έμ μ 보λ₯Ό λ£λ κ²μ κ³ λ €νμλ€. λ°λλ‘ λ¬Έμ μλ² λ©μ λν΄μ λ¨μ΄ μλ² λ©μ λ£λ κ²μ κ°μ ν μλ μμ κ²μΌλ‘ κ³ λ €λλ€.