Watermark Points and Paths

λ¬Έμ„œ μ›Œν„°λ§ˆν¬

Watermark Points and Paths

λ¬Έμ„œμ— λŒ€ν•œ μ›Œν„°λ§ˆν¬λ₯Ό κ°€μ •ν•˜λŠ” 경우, μ›Œν„°λ§ˆν¬ 생성은 두 κ°€μ§€λ‘œ λ‚˜λ‰  수 μžˆλ‹€.

  1. λ¬Έμ„œμ— λŒ€ν•΄μ„œ μ›Œν„°λ§ˆν¬λ₯Ό λ°°μ •ν•œλ‹€.
  2. λ¬Έμ„œ λ‚΄ 컨텐츠에 λŒ€ν•΄μ„œ μ›Œν„°λ§ˆν¬λ₯Ό λ°°μ •ν•œλ‹€.
Figure. λ¬Έμ„œμ˜ μ›Œν„°λ§ˆν¬ 두 κ°€μ§€ 방식. (쀑간) 2D point μ›Œν„°λ§ˆν¬ κ°€μ •. (였λ₯Έμͺ½) 2D path ν˜•νƒœμ˜ μ›Œν„°λ§ˆν¬ κ°€μ •.

λ¬Έμ„œ μ›Œν„°λ§ˆν¬μ˜ κΈ°λ³Έ 방식은 λ¬Έμ„œ ν•˜λ‚˜μ— λŒ€ν•΄μ„œ ν•˜λ‚˜μ˜ μ›Œν„°λ§ˆν¬λ₯Ό κ°€μ§€λŠ” 것이닀. μ›Œν„°λ§ˆν¬λ₯Ό ν•˜λ‚˜μ˜ λ²‘ν„°λ‘œ ν‘œν˜„ ν•œλ‹€λ©΄, μ΄λŠ” point에 ν•΄λ‹Ήν•˜λ©°, LLM의 μž…λ ₯에 λŒ€ν•΄μ„œ ν•΄λ‹Ή λ¬Έμ„œμ˜ pointλ₯Ό λ„£μ–΄μ„œ ν•™μŠ΅ν•˜λŠ” 게 λœλ‹€. 이 λ°©μ‹μ˜ μž₯점은 λ¬Έμ„œλ₯Ό κ΅¬λΆ„ν•˜λŠ”λ° μœ μš©ν•˜λ‹€λŠ” 점이고, 단점은 λ¬Έμ„œλ‚΄ 컨텐츠에 λŒ€ν•œ λͺ¨λΈλ§μ΄ λΆˆκ°€λŠ₯ν•˜λ‹€λŠ” 점이닀. 즉, 짧은 λ¬Έμ„œλ“  κΈ΄ λ¬Έμ„œλ“  λͺ¨λ‘ λ™μΌν•œ pointλ₯Ό κ°€μ§€κ²Œ λœλ‹€.

λ¬Έμ„œ μ›Œν„°λ§ˆν¬λŠ” point λŒ€μ‹ μ— path둜 μ£Όμ–΄μ§ˆ 수 μžˆλ‹€. 만일 κ°€λŠ₯ν•œ μ›Œν„°λ§ˆν¬κ°€ 무수히 λ§Žλ‹€λ©΄, 2번 μ•ˆμ€ λ‹¨μˆœνžˆ μ›μ²œ λ¬Έμ„œλ₯Ό μΆ”μ •ν•˜λŠ” 것을 λ„˜μ–΄μ„œ λ¬Έμ„œ λ‚΄ μ»¨ν…μΈ μ˜ μœ„μΉ˜κΉŒμ§€ μΆ”μ •ν•˜λŠ” 게 λœλ‹€. 이λ₯Ό μœ„ν•΄μ„œλŠ” μ›Œν„°λ§ˆν¬μ— λŒ€ν•œ μΌμ’…μ˜ pathλ₯Ό 생성해야 ν•œλ‹€.

Iterative Training

이전 λ…Όμ˜μ—μ„œ λ³΄μ•˜λ“―μ΄ μ›Œν„°λ§ˆν¬λ₯Ό λ„£μœΌλ©΄μ„œ ν•™μŠ΅ν•˜λŠ” 경우, μ›Œν„°λ§ˆν¬ 없이 생성은 λΆˆκ°€λŠ₯ν•˜λ©° 이λ₯Ό μœ„ν•΄μ„œ watermark invariance module 을 μ„€λͺ…ν•˜μ˜€λ‹€. 이에 λŒ€ν•œ λŒ€μ•ˆμœΌλ‘œ μž…λ ₯ 단에 ν‘œν˜„μ„ λ§žμΆ”λŠ” λŒ€μ‹ , λ‹€λ₯Έ μž…λ ₯이여도 λ™μΌν•œ 아웃풋을 κ°•μ œν•˜λŠ” λ°©μ‹μœΌλ‘œ λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚¬ 수 μžˆλ‹€.

Algorithm. λ‹€λ₯Έ μž…λ ₯에 λŒ€ν•΄μ„œ 아웃풋을 λ™μΌν•˜κ²Œ κ°•μ œν•œλ‹€. μ—¬κΈ°μ„œ 아웃풋은 μƒμ„±λœ 단어이닀. 이 방식은 WIM 의 κ²½μš°μ™€ λ‹€λ₯΄κ²Œ 좔가적인 lossκ°€ ν•„μš”ν•˜μ§€ μ•Šλ‹€. μΌμ’…μ˜ regularization으둜 λ³Ό 수 μžˆλ‹€.

μ‹€ν—˜ κ²°κ³Ό

μ‹€ν—˜ κ²°κ³Ό watermark 의 νƒ€μž…μ— λ”°λΌμ„œ ν•™μŠ΅ κ²°κ³Όκ°€ λ‹€λ₯΄μ§€ μ•Šμ•˜λ‹€.

이 결과에 λŒ€ν•΄μ„œ 두 κ°€μ§€ μ„€λͺ… 방식이 μžˆλ‹€.

  1. watermark νƒ€μž…μ— λ”°λΌμ„œ 큰 차이가 μ—†λ‹€.
  2. watermark prediction λͺ¨λΈμ€ 3λ ˆμ΄μ–΄ λͺ¨λΈμ΄λ‹€. λ”°λΌμ„œ μΆ©λΆ„ν•œ ν‘œν˜„ 곡간을 κ°€μ§€κ³  μžˆλ‹€.

κ²°λ‘ 

λ³Έ μ‹€ν—˜μœΌλ‘œ watermark prediction을 μ§„ν–‰ν•˜λ©΄μ„œ language modeling 이 κ°€λŠ₯ν•œ 것을 ν™•μΈν•˜μ˜€λ‹€. λ˜ν•œ watermark loss alpha 에 λ”°λΌμ„œ CE Lossκ°€ 크게 λ³€ν•˜μ§€ μ•Šμ•˜λ˜ 것은 두 개의 Objectλ₯Ό λ™μ‹œμ— λ§Œμ‘±ν•˜λ©΄μ„œ ν•™μŠ΅ν•˜λŠ” 게 κ°€λŠ₯ν•  κ²ƒμœΌλ‘œ νŒλ‹¨λœλ‹€.