Investigating Instability of Messages in
Multi-agent Reinforcement Learning [ํ•œ๊ตญ์–ด]

Stability analysis of hidden representation messages in multi-agent.

๊ตญ๋ฌธ์ฒด

๋กœ๋ด‡์ด ์›€์ง์ด๋ฉด์„œ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ํ™˜๊ฒฝ์€ ๋ณต์žกํ•œ ๊ณต๊ฐ„์ด๋‹ค. ์ด๋Š” ํ™˜๊ฒฝ์ด ์Šค์Šค๋กœ ๋ณ€ํ•˜๋Š” ์ด์œ ๋„ ์žˆ์ง€๋งŒ ํ™˜๊ฒฝ ๋‚ด๋ถ€์˜ ๋‹ค๋ฅธ ๋กœ๋ด‡๋“ค์ด ์˜ˆ์ƒ์น˜ ๋ชปํ•˜๋Š” ํ–‰๋™์„ ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๋Ÿฌํ•œ ๋‹ค๋ฅธ ๋กœ๋ด‡๋“ค์˜ ํ–‰๋™๊นŒ์ง€ ๊ณ ๋ คํ•ด์„œ ๋กœ๋ด‡์„ ์‹ฌ์ธตํ•™์Šต์œผ๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ๋Œ€ํ‘œ์ ์ธ ๋ถ„์•ผ๋Š” ๋‹ค์ค‘์—์ด์ „ํŠธ ๊ฐ•ํ™”ํ•™์Šต(MARL, multi-agent reinforcement learning)์œผ๋กœ ์—ฌ๋Ÿฌ ๋Œ€์˜ ๋กœ๋ด‡๋“ค์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด์„œ ๋ฐฐ์šฐ๋Š” ๋ถ„์•ผ์ด๋‹ค. ๋‹ค์ค‘์—์ด์ „ํŠธ ๊ฐ•ํ™”ํ•™์Šต์€ ์—ฌ๋Ÿฌ ํ˜•ํƒœ๊ฐ€ ์žˆ์ง€๋งŒ, ๊ทธ ์ค‘์—์„œ ์ปค๋ฎค์ผ€์ด์…˜ ๊ธฐ๋ฐ˜ ํ•™์Šต์€ ๋กœ๋ด‡๋“ค๋ผ๋ฆฌ ์˜์‚ฌ์†Œํ†ต์„ ํ†ตํ•˜์—ฌ ์ •๋ณด ๊ตํ™˜์„ ํ•˜๊ณ  ํ™˜๊ฒฝ์—์„œ ์ตœ๋Œ€๋ณด์ƒ์„ ์ด๋Œ์–ด๋‚ธ๋‹ค. ์ด๋Š” ๊ฐœ๋ณ„ ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ์œผ๋กœ๋ถ€ํ„ฐ ์–ป๋Š” ์ •๋ณด๋Š” ๊ตญ์†Œ์ ์ด๋ฉฐ ์—ฌ๋Ÿฌ ๋Œ€์˜ ๋กœ๋ด‡๋“ค์ด ์„ผ์„œ๋ฅผ ํ†ตํ•ด์„œ ์ž…๋ ฅ๋ฐ›์€ ์ •๋ณด๋“ค์„ ์ข…ํ•ฉํ•˜์—ฌ ๊ฐœ๋ณ„๋กœ๋ด‡์˜ ์˜์‚ฌ๊ฒฐ์ •์„ ๋•๋Š” ๊ฒƒ์ด๋‹ค. ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜ ๊ธฐ๋ฐ˜ ํ•™์Šต์€ ๋กœ๋ด‡์ด ๋‹ค๋ฅธ ๋กœ๋ด‡์—๊ฒŒ ๋ฉ”์‹œ์ง€๋ฅผ ์ „๋‹ฌํ•˜๋Š”๋ฐ, ์ด ๋•Œ ์ƒ์„ฑ๋œ ๋ฉ”์‹œ์ง€๋Š” ์‹ ๊ฒฝ๋ง์œผ๋กœ๋ถ€ํ„ฐ ๋กœ๋ด‡์ด ๊ด€์ฐฐํ•œ ๊ฐ’์„ ์ธ์ฝ”๋”ฉํ•œ ์ž ์žฌํ‘œํ˜„์ด๋‹ค. ์ด ๋ฉ”์‹œ์ง€๋Š” ๋กœ๋ด‡์˜ ์‹ ๊ฒฝ๋ง์œผ๋กœ๋ถ€ํ„ฐ ๊ฐ€๊ณต๋˜์„œ ์ „๋‹ฌํ•˜๋ฏ€๋กœ ํ•™์Šต์ด ์ œ๋Œ€๋กœ ๋๋‹ค๋ฉด, ์ˆ˜์‹ ํ•˜๋Š” ๋กœ๋ด‡์˜ ์ž…์žฅ์—์„œ ํ•„์š”ํ•œ ์ •๋ณด๊ฐ€ ๋‹ด๊ธฐ๊ฒŒ ๋œ๋‹ค.

์‹ ๊ฒฝ๋ง์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฉ”์‹œ์ง€๋ฅผ ๋งŒ๋“ค๋ฉด ํ•„์š”ํ•œ ๋ฉ”์‹œ์ง€๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค๋Š” ์‚ฌ์‹ค์ด ๋ณด์žฅ๋˜์ง€๋งŒ, ๋ฉ”์‹œ์ง€๊ฐ€ ํ•™์Šต๊ณผ์ •์—์„œ๋Š” ๋ถˆ์•ˆ์ •ํ•œ ์‹ ๊ฒฝ๋ง์œผ๋กœ๋ถ€ํ„ฐ ์ƒ๊ธฐ๋ฏ€๋กœ, ๋ฉ”์‹œ์ง€์˜ ์งˆ์ ์ธ ๋ถ€๋ถ„์—์„œ ํ•˜์ž๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ ๋กœ๋ด‡์ด ๊ด€์ฐฐํ•œ ์„ผ์„œ๊ฐ’๋“ค์€ ๊ฐ๊ด€์ ์ธ๋ฐ ๋ฐ˜ํ•ด์„œ ์‹ ๊ฒฝ๋ง์œผ๋กœ๋ถ€ํ„ฐ ํŒŒ์ƒ๋œ ์ •๋ณด๋Š” ๋ณด๋‹ค ์ฃผ๊ด€์ ์ด๋‹ค. ์™œ๋ƒํ•˜๋ฉด ๋™์ผํ•œ ์„ผ์„œ๋กœ๋ถ€ํ„ฐ ์„œ๋กœ ๋‹ค๋ฅธ ๋‘ ์‹ ๊ฒฝ๋ง์€ ๋‹ค๋ฅธ ์ž ์žฌํ‘œํ˜„์„ ๋งŒ๋“ค๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์‹ฌ์ธต๊ฐ•ํ™”ํ•™์Šต

๊ฐ•ํ™”ํ•™์Šต์€ ํ™˜๊ฒฝ์—์„œ ์—์ด์ „ํŠธ๊ฐ€ ์ฃผ์–ด์ง„ ์ƒํƒœ์— ๋Œ€ํ•ด์„œ ํ–‰๋™์„ ๊ฒฐ์ •ํ•˜๊ณ , ํ–‰๋™์— ๋Œ€ํ•œ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ•™์Šต์ด๋‹ค. ์‹ฌ์ธต๊ฐ•ํ™”ํ•™์Šต์—์„œ๋Š” ์—์ด์ „ํŠธ๊ฐ€ ์ƒํƒœ์— ๋Œ€ํ•ด์„œ ํ–‰๋™์„ ๊ฒฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด์„œ ์‹ฌ์ธต์‹ ๊ฒฝ๋ง์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ฃผ์–ด์ง„ ํ–‰๋™์œผ๋กœ๋ถ€ํ„ฐ ๋ฐ›๋Š” ์—ํ”ผ์†Œ๋“œ ๋‚ด ํ‰๊ท ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต๋œ๋‹ค. ์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ๋Š” DQN, PPO, SAC๊ณผ ๊ฐ™์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์ด ๋Œ€ํ‘œ์ ์œผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.

๋‹ค์ค‘์—์ด์ „ํŠธ ๊ฐ•ํ™”ํ•™์Šต

์‹ฌ์ธต๊ฐ•ํ™”ํ•™์Šต์ด ํ•˜๋‚˜์˜ ์—์ด์ „ํŠธ ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์˜€๋‹ค๋ฉด, ๋‹ค์ค‘์—์ด์ „ํŠธ ๊ฐ•ํ™”ํ•™์Šต์—์„œ๋Š” ์—ฌ๋Ÿฌ ์—์ด์ „ํŠธ๋“ค์„ ๋™์‹œ์— ํ•™์Šตํ•˜์—ฌ ์‚ฌ์šฉ์ž๊ฐ€ ์„ค๊ณ„ํ•œ ์ „์ฒด๋ณด์ƒํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋„๋ก ํ•™์Šต๋œ๋‹ค. ์ด ๋•Œ ์—์ด์ „ํŠธ๋“ค์€ ์„œ๋กœ ๋•๊ฑฐ๋‚˜ ๋ฐฉํ•ดํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์—์ด์ „ํŠธ๋“ค๊ฐ„์˜ ์ถ”๊ฐ€์ ์ธ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ณ ๋ คํ•ด์•ผ ํ•˜๋Š” ํ•™์Šต ๋ฐฉ๋ฒ•์ด๋‹ค. ์—์ด์ „ํŠธ๋“ค์„ ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹์€ ์—์ด์ „ํŠธ๋“ค์˜ ์ •๋ณด๊ตํ™˜์˜ ์ •๋„์— ๋”ฐ๋ผ์„œ ์ค‘์•™์ง‘์ค‘ํ˜•๊ณผ ๋ถ„์‚ฐํ˜•์œผ๋กœ ๊ตฌ๋ถ„๋  ์ˆ˜ ์žˆ๋Š”๋ฐ, ๊ฐ€์žฅ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ์‹์€ ํ•™์Šต ๋•Œ๋Š” ์ค‘์•™์ง‘์ค‘ํ˜•์œผ๋กœ ํ•™์Šตํ•˜๊ณ  ํ…Œ์ŠคํŠธ ๋•Œ๋Š” ๋ถ„์‚ฐํ˜•์œผ๋กœ ์ง„ํ–‰ํ•˜๋Š” (Centralized Training and Decentralized Execution) ๋ฐฉ์‹์ด๋‹ค. ์ด ๋ฐฉ์‹์˜ ๋Œ€ํ‘œ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์€ Q-MIX ์™€ MADDPG๊ฐ€ ์žˆ๋‹ค. ์ด๋“ค์€ ์—์ด์ „ํŠธ๋“ค๊ฐ„์˜ ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜์ด ์กด์žฌํ•˜์ง„ ์•Š์œผ๋ฏ€๋กœ ํ–‰๋™์„ ๊ฒฐ์ •ํ•  ๋•Œ๋Š” ์—์ด์ „ํŠธ๊ฐ€ ๋ณธ์ธ์˜ ๊ด€์ฐฐ๊ฐ’๋งŒ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ๋ณด์ƒ์— ๋Œ€ํ•œ ์ •ํ™•ํ•œ ์˜ˆ์ธก์„ ์œ„ํ•ด์„œ ์ข…ํ•ฉ๋œ ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ํŠน์ง•์ด ์žˆ๋‹ค. ์ด์™€๋Š” ๋ฐ˜๋Œ€๋กœ ํ–‰๋™์„ ๊ฒฐ์ •ํ•  ๋•Œ ์—์ด์ „ํŠธ๋“ค๊ฐ„์˜ ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋Œ€ํ‘œ์ ์œผ๋กœ ๋‘ ๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค. TarMAC ์€ ์—์ด์ „ํŠธ๋“ค์ด ๋ฉ”์‹œ์ง€๋ฅผ ๋ณด๋‚ด๊ณ  ๋ฐ›์€ ๋ฉ”์‹œ์ง€๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ๊ณ ๋ คํ•˜์—ฌ ํ–‰๋™ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜,TarMAC์€ ๋ฉ”์‹œ์ง€๊ฐ€ ํ•ญ์ƒ ์ „๋‹ฌ๋œ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋Š”๋ฐ, ์ด๋ฅผ ๊ฐœ์„ ํ•˜์—ฌ ์š”์ฒญ-๋ฐœ์‹  ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆํ•œ I2C๊ฐ€ ์žˆ๋‹ค. ๋‘ ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋“ค์˜ ํ•™์Šต์€ ๊ณตํ†ต์ ์œผ๋กœ ์—์ด์ „ํŠธ์˜ ๋ฉ”์‹œ์ง€๊ฐ€ ์‹ ๊ฒฝ๋ง์œผ๋กœ๋ถ€ํ„ฐ ์ƒ์„ฑ๋˜์–ด ๋‹ค๋ฅธ ์—์ด์ „ํŠธ๋กœ ์ „๋‹ฌ๋˜๋Š” ํŠน์ง•์ด ์กด์žฌํ•œ๋‹ค. ํ•™์Šต ๊ณผ์ •์—์„œ ์‹ ๊ฒฝ๋ง์€ ์ง€์†์ ์œผ๋กœ ๋ณ€ํ•˜๋ฉฐ ์ „๋‹ฌํ•˜๋Š” ๋ฉ”์‹œ์ง€ ๋˜ํ•œ ๋™์ผํ•œ ๊ด€์ฐฐ์— ๋Œ€ํ•ด์„œ ๊ณ„์† ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ „๋‹ฌํ•˜๋Š” ๊ฐ’์— ๋Œ€ํ•œ ๋ถˆ์•ˆ์ •์„ฑ์€ ๊ฐ•ํ™”ํ•™์Šต์„ ๋”์šฑ ๋ถˆ์•ˆ์ •ํ•˜๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํ•™์Šต์„ ์œ„ํ•ด์„œ ๋” ๋งŽ์€ ์‹œ๊ฐ„์ด ํ•„์š”ํ•˜๋‹ค. ์ด๋ฅผ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์‹ ๊ฒฝ๋ง์œผ๋กœ๋ถ€ํ„ฐ ์ฒ˜๋ฆฌ๋œ ์ •๋ณด๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋ณด๋‹ค ์—๋Ÿฌ๊ฐ€ ์ ์€ ์ •๋ณด์ธ ์‹ ๊ฒฝ๋ง์˜ ์ž…๋ ฅ ๋˜ํ•œ ์—์ด์ „ํŠธ์—๊ฒŒ ๋ฉ”์‹œ์ง€๋กœ ์ „๋‹ฌํ•ด์•ผ ํ•œ๋‹ค.

์ •๋ณด์˜ ์ฃผ๊ด€์„ฑ

์‹ ๊ฒฝ๋ง์˜ ํ‘œํ˜„๊ฐ’์— ๋Œ€ํ•œ ์ผ๋ฐ˜์ ์ธ ๋ฏฟ์Œ์€ ์‹ฌ์ธต๊ฐ’์ด ์ž…๋ ฅ์— ๋Œ€ํ•œ ์ถ•์•ฝ๋œ ์ •๋ณด๋ผ๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋ฏ€๋กœ ์ด๋Ÿฌํ•œ ์ •๋ณด๋Š” ๋‹จ์ˆœํžˆ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์ค‘์š”์ •๋ณด๋กœ ๊ณ ๋ ค๋  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์ฃผ๊ด€์ ์ด๋ผ๊ณ  ๋ณด๊ธฐ ์–ด๋ ต๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, ์ตœ๊ทผ ๋”ฅ๋Ÿฌ๋‹ ํ•ด์„ (Interpretability) ์—ฐ๊ตฌ๋“ค์€ ๋ชจ๋ธ์˜ ๋‚ด๋ถ€์— ๋Œ€ํ•œ ํ•ด์„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๊ณ , ๋ชจ๋ธ ๋‚ด๋ถ€๊ฐ€ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋ณด๊ด€ํ•œ๋‹ค๋Š” ๊ฒƒ์ด ์•Œ๋ ค์กŒ๋‹ค . ๋˜ํ•œ, ์ด๋Ÿฌํ•œ ๋ณด๊ด€๋ฐฉ์‹์€ ๋ชจ๋“  ๋ชจ๋ธ์ด ๋˜‘๊ฐ™๋‹ค๊ณ  ๋ณด๊ธฐ๋Š” ์–ด๋ ค์šด๋ฐ, ํ•™์Šต์˜ ๋ฐฉ๋ฒ•, ๋ชจ๋ธ ์ดˆ๊ธฐํ™”์— ๋”ฐ๋ผ์„œ ๋‹ค๋ฅด๊ฒŒ ํ‘œํ˜„๊ณต๊ฐ„์ด ํ•™์Šต๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋”ฐ๋ผ์„œ ๋ชจ๋ธ๋งˆ๋‹ค ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์ด ์„œ๋กœ ๋‹ค๋ฅผ ๊ฐ€๋Šฅ์„ฑ์ด ์กด์žฌํ•œ๋‹ค. ๋”ฐ๋ผ์„œ, ์‹ ๊ฒฝ๋ง์€ ์ •๋ณด๋ฅผ ์„œ๋กœ ๋‹ค๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•˜๋ฏ€๋กœ ๊ฐ๊ณผ์ ์ด๊ธฐ๋ณด๋‹ค ์ฃผ๊ด€์ ์ด๋ผ๊ณ  ๋ณด๋Š” ์‹œ์„ ์ด ์˜ฌ๋ฐ”๋ฅด๋‹ค.

์ œ์•ˆํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜

๊ธฐ์กด ๋‹ค์ค‘์—์ด์ „ํŠธ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์€ ์—์ด์ „ํŠธ๊ฐ„์˜ ํ†ต์‹ ํ•˜๋Š” ๋ฐฉ์‹์— ๋Œ€ํ•ด์„œ ๋…ผํ•˜๋ฉด์„œ, ์ „๋‹ฌ ํ•˜๋Š” ๋ฉ”์‹œ์ง€๋Š” ์‹ ๊ฒฝ๋ง์œผ๋กœ๋ถ€ํ„ฐ ์ƒ์„ฑ๋œ ์ถœ๋ ฅ์ด์—ˆ๋‹ค. ์ƒ์„ฑ๋œ ์ถœ๋ ฅ์€ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋‹ด์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ์ •๋ณด์ฒ˜๋ฆฌ ๊ด€์ ์—์„œ ์‹ ๊ฒฝ๋ง์ด ๊นŠ์–ด์งˆ์ˆ˜๋ก ์ž…๋ ฅ์˜ ์ •๋ณด๋Š” ํฌ์„๋œ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์€ ์ž…๋ ฅ ๋˜ํ•œ ์ค‘์š”ํ•œ ์ •๋ณด์ด๋ฉฐ, ๋•Œ๋กœ๋Š” ์‹ ๊ฒฝ๋ง์œผ๋กœ๋ถ€ํ„ฐ ์ƒ์„ฑ๋œ ์ •๋ณด๋ณด๋‹ค ๋”์šฑ ์•ˆ์ •์ ์œผ๋กœ ๋‹ค์ค‘์—์ด์ „ํŠธํ•™์Šต์— ๋„์›€์ด ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ฆผ1์€ ์‹ ๊ฒฝ๋ง์ด ๊นŠ์–ด์งˆ์ˆ˜๋ก ์ฃผ๊ด€์ ์ธ ์ •๋ณด๊ฐ€ ์ ์ฐจ ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์ด๋ฉฐ, ์ œ์•ˆํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‹จ์ˆœํžˆ ์‹ ๊ฒฝ๋ง์˜ ์ถœ๋ ฅ๋ฟ๋งŒ์•„๋‹ˆ๋ผ ์ฒ˜๋ฆฌ๊ณผ์ •์„ ์ค˜์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๊ทธ๋ฆผ 1. ๋‘ ์—์ด์ „ํŠธ๊ฐ€ ํ†ต์‹ ํ•˜๋Š”๋ฐ ์žˆ์–ด์„œ ๋ฉ”์‹œ์ง€๋ฅผ ์ „๋‹ฌํ•˜๋Š” ๋ฐฉ์‹ ๋น„๊ต. (์ขŒ) ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ๋ฉ”์‹œ์ง€๋Š” $m_1$ ๋ฉ”์‹œ์ง€๋ฅผ ๋งŒ๋“ค์–ด์„œ ๋‹ค์Œ ์—์ด์ „ํŠธ์—๊ฒŒ ์ „๋‹ฌํ•œ๋‹ค. (์šฐ) ์ •๋ณด์˜ ์ฃผ๊ด€์„ฑ์„ ๊ณ ๋ คํ•˜๋Š” ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ๋ฐฉ์‹์€ ์—์ด์ „ํŠธ๊ฐ€ ๊นŠ์€ ์‹ ๊ฒฝ๋ง์œผ๋กœ๋ถ€ํ„ฐ ์ฒ˜๋ฆฌํ•˜๋Š” ์ •๋ณด์˜ ์ฃผ๊ด€์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ๋ฉ”์‹œ์ง€๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ์ „๋‹ฌํ•œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ฒ˜๋ฆฌ๊ณผ์ •์„ ๋ชจ๋‘ ์ „๋‹ฌํ•˜๋Š” ๊ฒƒ์€ ์ •๋ณด์ „๋‹ฌ์˜ ์ธก๋ฉด์—์„œ ํšจ์œจ์ ์ด์ง€ ๋ชปํ•˜๋‹ค. ๋”ฐ๋ผ์„œ, ๊ฐ€์žฅ ์ฒ˜์Œ๊ณผ ๋ ์ •๋ณด๋งŒ ์ „๋‹ฌํ•˜๋Š” ๊ฒŒ์ดํŠธ ๊ธฐ๋ฐ˜ ์ •๋ณด์ „๋‹ฌ ๋ฐฉ์‹์„ ์ œ์•ˆํ•œ๋‹ค. ๊ฒŒ์ดํŠธ ๊ธฐ๋ฐ˜ ์ •๋ณด ์ „๋‹ฌ์€ ๊ธฐ์กด์— ์ œ์•ˆ๋˜์—ˆ๋˜ ๋ฐฉ์‹์ด๋‚˜, ๋‹ค์ค‘-์—์ด์ „ํŠธ ํ™˜๊ฒฝ์—์„œ ์ œ์•ˆํ•˜๋Š” ๊ฒƒ์€ ๋ณธ ๋…ผ๋ฌธ์ด ์ฒ˜์Œ์œผ๋กœ ์ œ์•ˆํ•˜๋Š” ๋‚ด์šฉ์ด๋‹ค.

์ „๋‹ฌ์ž ์—์ด์ „ํŠธ (sender agent) ์˜ $t$ ์‹œ๊ฐ„์— ๊ด€์ฐฐ๊ฐ’์„ $o_t^{(s)} \in \mathbf{R}^{obs}$, ์‹ ๊ฒฝ๋ง์œผ๋กœ๋ถ€ํ„ฐ ๋งŒ๋“  ํ‘œํ˜„๊ฐ’์„ $h_t^{(s)} \in \mathbf{R}^d$ ๋ผ๊ณ  ํ•˜์ž. ์ „๋‹ฌ์ž ์—์ด์ „ํŠธ๋Š” ๋‘ ๊ฐ€์ง€ ์ •๋ณด๋ฅผ ๋‹ค ์†ก์ถœํ•˜๊ณ , ์ˆ˜์‹ ์ž ์—์ด์ „ํŠธ (receiver agent) ๋Š” ๋‘ ์ •๋ณด์— ๋Œ€ํ•ด์„œ ์ ์ ˆํ•˜๋Š” ์„ž๋Š” ๋ฐฉ์‹์œผ๋กœ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•œ๋‹ค. ์ด ๋•Œ, ์„ ํ˜•๋ณด๊ฐ„๊ฐ’ $\sigma^{(r)}$ ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ์„ ํ˜•๋ณด๊ฐ„๋œ ์ •๋ณด $g_t^{(r,s)}$ ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ์—์ด์ „ํŠธ๋Š” ๋‘ ๊ฐ€์ง€ ์ •๋ณด์ค‘์—์„œ ํ•„์š”ํ•œ ์ •๋ณด์— ๊ฐ€์ค‘์น˜๋ฅผ ์ฃผ๊ณ  ์„ ํƒํ•˜๊ฒŒ ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์€ ๊ฒŒ์ดํŒ… ๋ฐฉ์‹ (Gating Mechanism)์œผ๋กœ ํ•„์š”ํ•œ ์ •๋ณด์— ๋Œ€ํ•œ ํšŒ๋กœ๋ฅผ ์—ด์–ด์„œ ์ •๋ณด๋ฅผ ์ „๋‹ฌํ•œ๋‹ค.

\[g_t^{(r,s)} = \sigma_t^{(r)} h_t^{(s)} + (1 - \sigma_t^{(r)}) \hat{o}_t^{(s)}\]

์ด ๋•Œ, $\hat{o}$ ์€ ๊ด€์ฐฐ๊ฐ’์˜ ์ฐจ์›์„ ์„ ํ˜•๋ณ€ํ™˜ํ•˜์—ฌ, ์‹ ๊ฒฝ๋ง์˜ ํ‘œํ˜„๊ฐ’๊ณผ ๋™์ผํ•œ ์‚ฌ์ด์ฆˆ๋กœ ๋งŒ๋“  ๊ฐ’์ด๋‹ค.

๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์˜ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ

๋‹ค์ค‘ ์—์ด์ „ํŠธ์˜ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์„ ๋ถ„์„ ํ•˜๊ธฐ ์•ž์„œ์„œ, ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์ƒํ™ฉ์—์„œ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์˜ ์˜๋ฏธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ„๋‹จํ•œ ์‹คํ—˜์„ ๋จผ์ € ์ง„ํ–‰ํ•œ๋‹ค. ์—์ด์ „ํŠธ๊ฐ„์˜ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์€ ์ „๋‹ฌํ•œ ๋ฉ”์‹œ์ง€๊ฐ€ ์‚ฌ์šฉํ•˜๋Š” ์ชฝ์—์„œ ๊ฐ•ํ™”ํ•™์Šต ์ตœ์ ํ™” ์‹œ๊ทธ๋„๋กœ ํ•™์Šต๋˜๋Š” ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ, ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์€ ์ˆ˜์‹ ์ž์˜ ๋ฉ”์‹œ์ง€๊ฐ€ ์†ก์‹ ์ž์˜ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ•™์Šต๋˜๋Š” ๊ตฌ์กฐ์ด๋‹ค. ์ด๋Š” ๋‹จ์ˆœํžˆ ํ•˜๋‚˜์˜ ์—์ด์ „ํŠธ์—์„œ ๋‘ ๊ฐœ์˜ ์‹ ๊ฒฝ๋ง ๋ชจ๋“ˆ์„ ์ง€๋‹ˆ๊ณ  ํ•™์Šตํ•˜๋Š” ๊ฒƒ๊ณผ ๋™์ผํ•œ ์ƒํ™ฉ์ด๋‹ค. ๋”ฐ๋ผ์„œ, ๋‹จ์ผ ์—์ด์ „ํŠธ์—์„œ ๋‘ ๋ชจ๋“ˆ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์˜ ์•ˆ์ •์„ฑ์— ๋Œ€ํ•ด์„œ ๋จผ์ € ๋ถ„์„ํ•œ๋‹ค. ๊ทธ๋ฆผ์€ ๋‘ ๋ชจ๋“ˆ์— ๋Œ€ํ•ด์„œ ๊ฐ€๋Šฅํ•œ ์„ธ ๊ฐ€์ง€ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ๋ฐฉ์‹์„ ๋ณด์—ฌ์ค€๋‹ค. ์ถ”๊ฐ€์ ์œผ๋กœ ๋ฉ”์‹œ์ง€์˜ ์•ˆ์ •์„ฑ์„ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด์„œ, ๋ฉ”์‹œ์ง€์˜ ์•ฝ๊ฐ„์˜ ๋…ธ์ด์ฆˆ๋ฅผ ๋”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ฉ”์‹œ์ง€๋ฅผ ๋ณ€ํ˜•ํ•˜์˜€๋‹ค.

๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์˜ ์„ธ๊ฐ€์ง€ ๋ฐฉ๋ฒ•

์ œ์ผ ๋จผ์ € ํ™•์ธํ•ด์•ผ ํ•˜๋Š” ๊ฒƒ์€ ์—์ด์ „ํŠธ๊ฐ€ ๊ด€์ฐฐํ–ˆ๋˜ ๊ฐ’์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์ด๋Š” ์‹ ๊ฒฝ๋ง์œผ๋กœ ๋ฉ”์‹œ์ง€๋ฅผ ๋งŒ๋“œ๋Š” ๊ด€์ ์—์„œ ๋ดค์„ ๋•Œ, ์‹ ๊ฒฝ๋ง์ด ํ•ญ๋“ฑํ•จ์ˆ˜์ธ ๊ฒฝ์šฐ์™€ ๋™์ผํ•˜๋‹ค. ์—์ด์ „ํŠธ๊ฐ€ ๋ฐ›๋Š” ๋ฉ”์‹œ์ง€๋Š” ์ด์ „ ์—์ด์ „ํŠธ์˜ ๊ด€์ฐฐ ์ƒํƒœ์ด๋‹ค.

๋‘ ๋ฒˆ์งธ ๋ฐฉ๋ฒ•์€ ๋„คํŠธ์›Œํฌ๋กœ๋ถ€ํ„ฐ ๊ด€์ฐฐ๊ฐ’์„ ๊ฐ€๊ณตํ•˜์—ฌ ์ „๋‹ฌํ•ด์ฃผ๋Š” ๊ฒƒ์ด๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๊ธฐ์กด ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ๋ฐฉ๋ฒ•๊ณผ ๋™์ผํ•˜๋‹ค.

์„ธ ๋ฒˆ์งธ ๋ฐฉ๋ฒ•์€ ๊ด€์ฐฐ๊ฐ’๊ณผ ๋”ฅ๋Ÿฌ๋‹ ๋ฉ”์‹œ์ง€๋ฅผ ์—์ด์ „ํŠธ๊ฐ€ ์ง์ ‘ ๊ณ ๋ฅด๋Š” ๋ฐฉ์‹์ด๋‹ค. ์—์ด์ „ํŠธ๋Š” ์ ์ ˆํ•œ ๋น„์œจ๋กœ ๊ด€์ฐฐ๊ฐ’๊ณผ ์‹ฌ์ธตํ‘œํ˜„์„ ์„ ํ˜•๋ณด๊ฐ„ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•œ๋‹ค. ๋งŒ์ผ ์ „๋‹ฌ๋œ ๋ฉ”์‹œ์ง€๊ฐ€ ์‹ฌ์ธตํ‘œํ˜„์ด ํ•„์š”ํ•˜์ง€ ์•Š๋Š”๋‹ค๋ฉด, ์—์ด์ „ํŠธ๋Š” ๋‹จ์ˆœํžˆ ๋‹ค๋ฅธ ์—์ด์ „ํŠธ์˜ ๊ด€์ฐฐ๊ฐ’์„ ์‚ฌ์šฉํ•  ๊ฒƒ์ด๋‹ค.

์•„๋ž˜ ๊ทธ๋ฆผ์€ CartPole-V0 ํ™˜๊ฒฝ์—์„œ 100K ์ƒ˜ํ”Œ์— ๋Œ€ํ•ด์„œ ์„ธ๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•œ ๊ฒฐ๊ณผ์ด๋‹ค. ๊ฒฐ๊ณผ๋Š” 2๊ฐœ์˜ ๋žœ๋ค์‹œ๋“œ๋ฅผ ํ‰๊ท ํ•˜์—ฌ ๋‚˜ํƒ€๋ƒˆ๊ณ , 95% ์‹ ๋ขฐ๋„ ๊ตฌ๊ฐ„์„ ํ‘œํ˜„ํ•˜์˜€๋‹ค. ๊ฒŒ์ดํŠธ ๊ธฐ๋ฐ˜์˜ ์—์ด์ „ํŠธ๋Š” ๋…ธ์ด์ฆˆ๊ฐ€ ์—†๊ฑฐ๋‚˜ ์ ์€ ํ™˜๊ฒฝ์—์„œ ๋‹จ์ˆœ ๊ด€์ฐฐ๊ฐ’ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ณด๋‹ค ๋†’๊ฑฐ๋‚˜ ์•ˆ์ •์ ์ธ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, ๋…ธ์ด์ฆˆ๊ฐ€ ์‹ฌํ•œ ํ™˜๊ฒฝ์—์„œ๋Š” ๋‹จ์ˆœ ๊ด€์ฐฐ๊ฐ’ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ณด๋‹ค ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. RNN ์‹ฌ์ธตํ‘œํ˜„ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋Š” ํ•™์Šต์˜ ์•ˆ์ •์„ฑ์œผ๋กœ ์ธํ•ด์„œ ์„ฑ๋Šฅ์ด ์ข‹์ง€ ๋ชปํ•œ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

Figure. The training return in CartPole-v0 environment over 100K samples averaged by 2 seeds.
Figure. The error of the value function in CartPole-v0 environment averaged over 2 seeds.

๊ฒŒ์ดํŠธ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ๋”์šฑ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•ด์„œ, ์„ ํ˜•๋ณด๊ฐ„์— ์‚ฌ์šฉ๋œ ๊ฐ’์„ ๋ถ„์„ํ•˜์˜€๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ์€ ์„ ํ˜•๋ณด๊ฐ„ ์ดˆ๊ธฐ๊ฐ’ 1๋กœ๋ถ€ํ„ฐ ํ•™์Šต์ด ์ง„ํ–‰๋จ์— ๋”ฐ๋ผ์„œ ์ฆ๊ฐ€ํ•˜๋Š” ๊ฒฝํ–ฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ด ๊ฒฝํ–ฅ์„ฑ์€ 1.2 ์ˆ˜์ค€์—์„œ ๋ฉˆ์ท„๋Š”๋ฐ, ์ด๋Š” ์‹ฌ์ธต๋ง ๊ธฐ๋ฐ˜ ํ‘œํ˜„๊ฐ’์„ 0.2% ์ •๋„ ์„ž๋Š” ๊ฒƒ์œผ๋กœ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ๋‹ค.

Figure. the interpolation value over training averaged over 2 seeds.

๋‹ค์ค‘์—์ด์ „ํŠธ ํ•™์Šต

๋ณธ ๋…ผ๋ฌธ์—์„œ ์‹คํ—˜์€ ์—์ด์ „ํŠธ ๊ฐ„์˜ ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜์ด ์ค‘์š”ํ•˜๊ณ , ์ „๋‹ฌํ•˜๋Š” ์ž…๋ ฅ ์ •๋ณด๊ฐ€ ๊ทธ ์ž์ฒด๋กœ๋„ ์“ฐ์ž„์ƒˆ๊ฐ€ ์žˆ๋Š” ํ™˜๊ฒฝ์„ ์„ ํƒํ•˜์˜€๋‹ค. Mate ํ™˜๊ฒฝ์€ ํƒ€๊ฒŸ๋“ค์ด ์ •๋ณด๋ฅผ ์ „๋‹ฌํ•˜๊ณ  ์—ฌ๋Ÿฌ ๋Œ€์˜ ์นด๋ฉ”๋ผ๊ฐ€ ์ •๋ณด๋ฅผ ํƒ€๊ฒŸ์„ ๊ฐ์‹œํ•˜๋Š” ํ™˜๊ฒฝ์ด๋‹ค. ์ด ๋•Œ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ•™์Šตํ•œ ์—์ด์ „ํŠธ๋Š” ์นด๋ฉ”๋ผ๋กœ ํƒ€๊ฒŸ๋“ค์€ ํƒ์š•์ ์ธ ๋ฐฉ์‹์œผ๋กœ ๋ฌผํ’ˆ์„ ์˜ฎ๊ธด๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์˜€๋‹ค. ์นด๋ฉ”๋ผ๋“ค์€ ํƒ€๊ฒŸ๋“ค์„ ๊ฐ์‹œํ•œ ํšŸ์ˆ˜์— ๋”ฐ๋ผ์„œ ๋ณด์ƒ์„ ๋ฐ›๊ฒŒ ๋œ๋‹ค.

ยฉ Image From MATE github

๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ๋ชจ๋ธ์€ ๊ธฐ์กด TarMAC ์„ ์‚ฌ์šฉํ•˜์˜€๊ณ , ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ๋ฐฉ์‹์„ ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ์ˆ˜์ •ํ•˜์˜€๋‹ค. ์ „๋‹ฌ์ž ์—์ด์ „ํŠธ๊ฐ€ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ํ‘œํ˜„๊ฐ’๊ณผ ๊ด€์ฐฐ๊ฐ’์„ ๋ชจ๋‘ ์ „๋‹ฌํ•ด์ฃผ๋ฉด, ์ˆ˜์‹ ์ž ์—์ด์ „ํŠธ ์ชฝ์—์„œ ๊ฐ’์„ ๊ฒŒ์ดํŠธ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ•„ํ„ฐ๋งํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ์ด ๋•Œ, ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ํ‘œํ˜„๊ฐ’์€ RNN์„ ํ†ตํ•ด์„œ ๋งŒ๋“ค์–ด์ง„๋‹ค.

์ฒซ ๋ฒˆ์งธ ์—์ด์ „ํŠธ๋Š” ๋ฉ”์‹œ์ง€๋ฅผ ๋งŒ๋“ค๊ณ , ๊ด€์ฐฐ๊ฐ’๊ณผ ํ•จ๊ป˜ ๋‘ ๋ฒˆ์งธ ์—์ด์ „ํŠธ์— ์ „๋‹ฌํ•œ๋‹ค. ๋‘ ๋ฒˆ์งธ ์—์ด์ „ํŠธ๋Š” ๋ฉ”์‹œ์ง€๋ฅผ ๋ฐ›์œผ๋ฉด ๊ฒŒ์ดํŠธ ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ์„ ํ˜•๋ณด๊ฐ„๋œ ๊ฐ’์„ ์‚ฌ์šฉํ•œ๋‹ค.

์•„๋ž˜ ๊ทธ๋ฆผ์€ 2vs2 ์™€ 4vs2 ํ™˜๊ฒฝ์—์„œ 4M ์ƒ˜ํ”Œ์— ๋Œ€ํ•ด์„œ ํ•™์Šตํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. Vs ์•ž์— ์ˆ˜๋Š” ์นด๋ฉ”๋ผ ๊ฐœ์ˆ˜๋ฅผ, ๋’ค์— ์ˆ˜๋Š” ํƒ€๊ฒŸ ๊ฐœ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์—์ด์ „ํŠธ๊ฐ„ ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜์ด ์ ์€ 2vs2 ํ™˜๊ฒฝ์—์„œ๋Š” ๋‹จ์ˆœํžˆ ๊ด€์ฐฐ๊ฐ’์„ ์ „๋‹ฌํ•œ ๊ฒƒ์ด ์„ฑ๋Šฅ์ด ๋†’์•˜๋‹ค. ๋˜ํ•œ ์‹ฌ์ธต๋ง ํ‘œํ˜„๊ฐ’์„ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ, ์„ฑ๋Šฅ์˜ ํŽธ์ฐจ๊ฐ€ ์‹ฌํ•œ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ฐ˜๋ฉด์— ๊ฒŒ์ดํŠธ ๊ธฐ๋ฐ˜ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์€ ํŽธ์ฐจ๊ฐ€ ์ ๋‹ค. 4vs2 ํ™˜๊ฒฝ์—์„œ๋Š” ๊ฒŒ์ดํŠธ ๊ธฐ๋ฐ˜์˜ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์ด ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ์—์ด์ „ํŠธ๊ฐ„ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์ด ํ™œ๋ฐœํ•˜๊ณ  ์ „๋‹ฌํ•˜๋Š” ๋ฉ”์‹œ์ง€๊ฐ€ ๊ฐ๊ณฝ์ ์ธ ์ •๋ณด์™€ ์ฃผ๊ด€์ ์ธ ์ •๋ณด๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•ด์•ผ ๋†’์€ ์„ฑ๋Šฅ์„ ๊ฐ€์ง์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

Figure. The training return in MATE environment over 4M samples averaged by 2 seeds.

๊ฒฐ๋ก 

๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋‹ค์ค‘์—์ด์ „ํŠธ์—์„œ ๊ฒŒ์ดํŠธ ๊ธฐ๋ฐ˜ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์„ ์ œ์•ˆํ•œ๋‹ค. ์ œ์•ˆํ•œ ๊ฒŒ์ดํŠธ ๊ธฐ๋ฐ˜ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์€ ์‹ฌ์ธต์‹ ๊ฒฝ๋ง์˜ ๋ถˆ์•ˆ์ •์„ฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ์‹คํ—˜์ ์œผ๋กœ ์ ์ ˆํ•œ ๊ฒŒ์ดํŠธ ๋ฐฉ์‹์ด ํšจ์œจ์ ์ž„์„ ๋ณด์˜€๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ ๋ฐœ๊ฒฌํ•œ ์ ์€ ๊ฒŒ์ดํŠธ ๋ฐฉ์‹์„ ์ดˆ๋ฐ˜์— ๊ด€์ฐฐ๊ฐ’ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉด์„œ ์ ์ง„์ ์œผ๋กœ ์‹ฌ์ธต์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ๋ฉ”์‹œ์ง€๋ฅผ ์ฒจ๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹์ด ํšจ์œจ์ ์ด๋‹ค๋Š” ์ ์ด๋‹ค. ์ด๋Ÿฌํ•œ ์•ˆ์ •์ ์ธ ๋ฉ”์‹œ์ง€ ์ƒ์„ฑ์€ ๋ถˆ์•ˆ์ •ํ•œ ๋‹ค์ค‘๊ฐ•ํ™”ํ•™์Šต์—์„œ ๋ณด๋‹ค ์•ˆ์ •์ ์ธ ํ•™์Šต, ๋น ๋ฅธ ํ•™์Šต ๊ฒฐ๊ณผ๋ฅผ ์ด๋ฃจ๋Š”๋ฐ ๋„์›€์ด ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.