Watermark in Word Embedding

Watermark in Word Embedding

μ£Όμ–΄μ§„ 단어 μž„λ² λ”© 곡간 $E={e_1, e_2, \cdots, e_V}$에 λŒ€ν•΄μ„œ λ¬Έμ„œ μ›Œν„°λ§ˆν¬ μž„λ² λ”©$W={w_1, w_2, \cdots, w_M}$ where $w_j \sim \mathcal{N}(0, \sigma)$ 은 단어 μž„λ² λ”© 곡간에 λŒ€ν•΄μ„œ μΆ©λΆ„νžˆ μž‘μ€ variance λ₯Ό κ°€μ Έμ•Ό ν•œλ‹€. μž„λ² λ”© $e_i$ 와 λ¬Έμ„œ μ›Œν„°λ§ˆν¬ $w_j$ λ₯Ό μž…λ ₯에 λ„£λŠ” 경우λ₯Ό κ°€μ •ν•˜μž.

\[\hat{e}_i = e_i + w_j\]

만일 $w_j$ 의 크기가 $e_i$ 듀을 κ΅¬λΆ„ν•˜λŠ” 거리보닀 크닀면, λžœλ€ν•˜κ²Œ 뽑은 $w_j$듀은 λ‹€λ₯Έ λ‹¨μ–΄μ˜ μž„λ² λ”©μ„ μΉ¨λ²”ν•˜κ²Œ λœλ‹€. λ”°λΌμ„œ λ¬Έμ„œ μ›Œν„°λ§ˆν¬μ— λŒ€ν•΄μ„œλŠ” λ‹€μŒκ³Ό 같은 크기의 μ œμ•½μ΄ ν•„μš”ν•˜λ‹€.

\[|e_k - e_i | > |w_j|\]

μ•„λž˜ 그림은 단어 μž„λ² λ”© κ³΅κ°„μ—μ„œ λ¬Έμ„œ μ›Œν„°λ§ˆν¬μ˜ 크기에 λ”°λ₯Έ μ˜μ—­ 침범을 보여쀀닀.

GPTλ₯Ό ν•™μŠ΅ν•˜λŠ” κ³Όμ •μ—μ„œ 단어 μž„λ² λ”© 곡간은 μ—…λ°μ΄νŠΈ λ˜λ―€λ‘œ κ³ μ • 값이 μ•„λ‹ˆλ‹€. 이에 λ°˜ν•΄ λ¬Έμ„œ μ›Œν„°λ§ˆν¬λŠ” 고정값을 κ°€μ •ν•˜κ³  μžˆλ‹€. λ”°λΌμ„œ ν•™μŠ΅ κ³Όμ •μ—μ„œ λ¬Έμ„œ μ›Œν„°λ§ˆν¬λ₯Ό λ„£λŠ”λ‹€λ©΄, μ• μ‹œλ‹Ήμ΄ˆ μΆ©λΆ„νžˆ μž‘μ€ 값을 κ³ μ •μ μœΌλ‘œ μ€˜μ•Ό ν•œλ‹€. (λ¬Όλ‘ , λ¬Έμ„œ μ›Œν„°λ§ˆν¬ ν‘œν˜„λ„ differential ν•˜κ²Œ ν•™μŠ΅ν•˜λŠ” 방식을 κ³ λ €ν•  수 μžˆμ„ 것이닀.)

이 경우, κ°€λŠ₯ν•œ 방식은 λ¬Έμ„œ μ›Œν„°λ§ˆν¬κ°€ the unit $d-1$-sphere 에 μ‘΄μž¬ν•˜λ©°, μΆ©λΆ„νžˆ μž‘μ€ $\alpha$ λ₯Ό κ°€μ§„ 곡간에 λ†“λŠ” 것이닀. μ΄λŠ” κΈ°μ‘΄ μ—°κ΅¬μ˜ 관점과 λ™μΌν•˜λ‹€. μ μ ˆν•œ magnitude 에 λŒ€ν•΄μ„œλŠ” 아직 λ°ν˜€λ‚΄μ§€ λͺ»ν–ˆλ‹€.

\[W = \{w \in \mathbb{R}^d | w_1^2 + w_2^2 + \cdots + w_d^2 = \alpha\}\]

μ•„λž˜ 그림은 ν•™μŠ΅ μ „ ν›„λ‘œ κ³ μ •λœ unitary sphere 의 λ¬Έμ„œ μ›Œν„°λ§ˆν¬μ™€ μž„λ² λ”© 곡간을 보여쀀닀. ꡳ이 unitary sphere λ₯Ό μ“°λ €λŠ” μ΄μœ λŠ” normal distribution의 경우 κ·Έ κ°’μ˜ λ²”μœ„κ°€ λ¬΄ν•œλŒ€μ΄κΈ° λ•Œλ¬Έμ΄λ‹€.

μ‹€ν—˜ κ²°κ³Ό

Unitary Sphere 에 λŒ€ν•΄μ„œλŠ” 쒀더 λ…Όμ˜κ°€ ν•„μš”ν•˜λ‹€. 이 μ‹€ν—˜μ—μ„œλŠ” normal distribution μ—μ„œ std λ₯Ό μ œμ–΄ν•¨μœΌλ‘œμ¨ ν•™μŠ΅ μ„±λŠ₯의 λ³€ν™”λ₯Ό μ‚΄νŽ΄λ΄€λ‹€. std κ°€ μ¦κ°€ν• μˆ˜λ‘ μ΄ˆκΈ°ν™”λœ μž„λ² λ”© 곡간을 λ„˜λŠ” λ¬Έμ„œ μ›Œν„°λ§ˆν¬κ°€ μ‘΄μž¬ν•˜λ©°, ν•™μŠ΅μ˜ λΆˆμ•ˆμ •μ„±μ΄ 컀진닀.

κ²°λ‘ 

μž„λ² λ”© 곡간에 단어와 λ¬Έμ„œμ˜ 정보λ₯Ό λ„£λŠ” 것은 λ‘˜ 쀑 ν•˜λ‚˜μ˜ 크기가 μƒλŒ€μ μœΌλ‘œ μž‘μ„ λ•Œ κ°€λŠ₯ν•˜λ‹€. μ—¬κΈ°μ„œλŠ” 단어 μž„λ² λ”©μ„ κΈ°μ€€μœΌλ‘œ λ¬Έμ„œ 정보λ₯Ό λ„£λŠ” 것을 κ³ λ €ν•˜μ˜€λ‹€. λ°˜λŒ€λ‘œ λ¬Έμ„œ μž„λ² λ”©μ— λŒ€ν•΄μ„œ 단어 μž„λ² λ”©μ„ λ„£λŠ” 것을 κ°€μ •ν•  μˆ˜λ„ μžˆμ„ κ²ƒμœΌλ‘œ κ³ λ €λœλ‹€.