Stability analysis of hidden representation messages in multi-agent.
๋ก๋ด์ด ์์ง์ด๋ฉด์ ์ํธ์์ฉํ๋ ํ๊ฒฝ์ ๋ณต์กํ ๊ณต๊ฐ์ด๋ค. ์ด๋ ํ๊ฒฝ์ด ์ค์ค๋ก ๋ณํ๋ ์ด์ ๋ ์์ง๋ง ํ๊ฒฝ ๋ด๋ถ์ ๋ค๋ฅธ ๋ก๋ด๋ค์ด ์์์น ๋ชปํ๋ ํ๋์ ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฌํ ๋ค๋ฅธ ๋ก๋ด๋ค์ ํ๋๊น์ง ๊ณ ๋ คํด์ ๋ก๋ด์ ์ฌ์ธตํ์ต์ผ๋ก ํ์ต์ํค๋ ๋ํ์ ์ธ ๋ถ์ผ๋ ๋ค์ค์์ด์ ํธ ๊ฐํํ์ต(MARL, multi-agent reinforcement learning)์ผ๋ก ์ฌ๋ฌ ๋์ ๋ก๋ด๋ค์ ์ํธ์์ฉ์ ๊ฐํํ์ต์ ํตํด์ ๋ฐฐ์ฐ๋ ๋ถ์ผ์ด๋ค. ๋ค์ค์์ด์ ํธ ๊ฐํํ์ต์ ์ฌ๋ฌ ํํ๊ฐ ์์ง๋ง, ๊ทธ ์ค์์ ์ปค๋ฎค์ผ์ด์ ๊ธฐ๋ฐ ํ์ต์ ๋ก๋ด๋ค๋ผ๋ฆฌ ์์ฌ์ํต์ ํตํ์ฌ ์ ๋ณด ๊ตํ์ ํ๊ณ ํ๊ฒฝ์์ ์ต๋๋ณด์์ ์ด๋์ด๋ธ๋ค. ์ด๋ ๊ฐ๋ณ ์์ด์ ํธ๊ฐ ํ๊ฒฝ์ผ๋ก๋ถํฐ ์ป๋ ์ ๋ณด๋ ๊ตญ์์ ์ด๋ฉฐ ์ฌ๋ฌ ๋์ ๋ก๋ด๋ค์ด ์ผ์๋ฅผ ํตํด์ ์ ๋ ฅ๋ฐ์ ์ ๋ณด๋ค์ ์ข ํฉํ์ฌ ๊ฐ๋ณ๋ก๋ด์ ์์ฌ๊ฒฐ์ ์ ๋๋ ๊ฒ์ด๋ค. ์ปค๋ฎค๋์ผ์ด์ ๊ธฐ๋ฐ ํ์ต์ ๋ก๋ด์ด ๋ค๋ฅธ ๋ก๋ด์๊ฒ ๋ฉ์์ง๋ฅผ ์ ๋ฌํ๋๋ฐ, ์ด ๋ ์์ฑ๋ ๋ฉ์์ง๋ ์ ๊ฒฝ๋ง์ผ๋ก๋ถํฐ ๋ก๋ด์ด ๊ด์ฐฐํ ๊ฐ์ ์ธ์ฝ๋ฉํ ์ ์ฌํํ์ด๋ค. ์ด ๋ฉ์์ง๋ ๋ก๋ด์ ์ ๊ฒฝ๋ง์ผ๋ก๋ถํฐ ๊ฐ๊ณต๋์ ์ ๋ฌํ๋ฏ๋ก ํ์ต์ด ์ ๋๋ก ๋๋ค๋ฉด, ์์ ํ๋ ๋ก๋ด์ ์ ์ฅ์์ ํ์ํ ์ ๋ณด๊ฐ ๋ด๊ธฐ๊ฒ ๋๋ค.
์ ๊ฒฝ๋ง์ ๊ธฐ๋ฐ์ผ๋ก ๋ฉ์์ง๋ฅผ ๋ง๋ค๋ฉด ํ์ํ ๋ฉ์์ง๋ฅผ ๋ง๋ค ์ ์๋ค๋ ์ฌ์ค์ด ๋ณด์ฅ๋์ง๋ง, ๋ฉ์์ง๊ฐ ํ์ต๊ณผ์ ์์๋ ๋ถ์์ ํ ์ ๊ฒฝ๋ง์ผ๋ก๋ถํฐ ์๊ธฐ๋ฏ๋ก, ๋ฉ์์ง์ ์ง์ ์ธ ๋ถ๋ถ์์ ํ์๊ฐ ์์ ์ ์๋ค. ๋ํ ๋ก๋ด์ด ๊ด์ฐฐํ ์ผ์๊ฐ๋ค์ ๊ฐ๊ด์ ์ธ๋ฐ ๋ฐํด์ ์ ๊ฒฝ๋ง์ผ๋ก๋ถํฐ ํ์๋ ์ ๋ณด๋ ๋ณด๋ค ์ฃผ๊ด์ ์ด๋ค. ์๋ํ๋ฉด ๋์ผํ ์ผ์๋ก๋ถํฐ ์๋ก ๋ค๋ฅธ ๋ ์ ๊ฒฝ๋ง์ ๋ค๋ฅธ ์ ์ฌํํ์ ๋ง๋ค๊ธฐ ๋๋ฌธ์ด๋ค.
๊ฐํํ์ต์ ํ๊ฒฝ์์ ์์ด์ ํธ๊ฐ ์ฃผ์ด์ง ์ํ์ ๋ํด์ ํ๋์ ๊ฒฐ์ ํ๊ณ , ํ๋์ ๋ํ ๋ณด์์ ์ต๋ํํ๋ ํ์ต์ด๋ค. ์ฌ์ธต๊ฐํํ์ต์์๋ ์์ด์ ํธ๊ฐ ์ํ์ ๋ํด์ ํ๋์ ๊ฒฐ์ ํ๊ธฐ ์ํด์ ์ฌ์ธต์ ๊ฒฝ๋ง์ ์ฌ์ฉํ๋ฉฐ, ์ฃผ์ด์ง ํ๋์ผ๋ก๋ถํฐ ๋ฐ๋ ์ํผ์๋ ๋ด ํ๊ท ๋ณด์์ ์ต๋ํํ๋ ๋ฐฉ์์ผ๋ก ํ์ต๋๋ค. ์ฌ์ธต ๊ฐํํ์ต์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ DQN, PPO, SAC๊ณผ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ๋ค์ด ๋ํ์ ์ผ๋ก ์ฌ์ฉ๋๋ค.
์ฌ์ธต๊ฐํํ์ต์ด ํ๋์ ์์ด์ ํธ ํ๋์ ํ์ตํ๋ ๊ฒ์ด ๋ชฉํ์๋ค๋ฉด, ๋ค์ค์์ด์ ํธ ๊ฐํํ์ต์์๋ ์ฌ๋ฌ ์์ด์ ํธ๋ค์ ๋์์ ํ์ตํ์ฌ ์ฌ์ฉ์๊ฐ ์ค๊ณํ ์ ์ฒด๋ณด์ํจ์๋ฅผ ์ต๋ํํ๋๋ก ํ์ต๋๋ค. ์ด ๋ ์์ด์ ํธ๋ค์ ์๋ก ๋๊ฑฐ๋ ๋ฐฉํดํ ์ ์์ผ๋ฏ๋ก ์์ด์ ํธ๋ค๊ฐ์ ์ถ๊ฐ์ ์ธ ์ํธ์์ฉ์ ๊ณ ๋ คํด์ผ ํ๋ ํ์ต ๋ฐฉ๋ฒ์ด๋ค.
์์ด์ ํธ๋ค์ ํ์ตํ๋ ๋ฐฉ์์ ์์ด์ ํธ๋ค์ ์ ๋ณด๊ตํ์ ์ ๋์ ๋ฐ๋ผ์ ์ค์์ง์คํ๊ณผ ๋ถ์ฐํ์ผ๋ก ๊ตฌ๋ถ๋ ์ ์๋๋ฐ, ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ๋ฐฉ์์ ํ์ต ๋๋ ์ค์์ง์คํ์ผ๋ก ํ์ตํ๊ณ ํ
์คํธ ๋๋ ๋ถ์ฐํ์ผ๋ก ์งํํ๋ (Centralized Training and Decentralized Execution) ๋ฐฉ์์ด๋ค. ์ด ๋ฐฉ์์ ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ๋ค์ Q-MIX
์ ๊ฒฝ๋ง์ ํํ๊ฐ์ ๋ํ ์ผ๋ฐ์ ์ธ ๋ฏฟ์์ ์ฌ์ธต๊ฐ์ด ์
๋ ฅ์ ๋ํ ์ถ์ฝ๋ ์ ๋ณด๋ผ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ฏ๋ก ์ด๋ฌํ ์ ๋ณด๋ ๋จ์ํ ์
๋ ฅ์ ๋ํ ์ค์์ ๋ณด๋ก ๊ณ ๋ ค๋ ์ ์์ผ๋ฏ๋ก ์ฃผ๊ด์ ์ด๋ผ๊ณ ๋ณด๊ธฐ ์ด๋ ต๋ค. ๊ทธ๋ฌ๋, ์ต๊ทผ ๋ฅ๋ฌ๋ ํด์ (Interpretability) ์ฐ๊ตฌ๋ค์ ๋ชจ๋ธ์ ๋ด๋ถ์ ๋ํ ํด์์ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์๊ณ , ๋ชจ๋ธ ๋ด๋ถ๊ฐ ์
๋ ฅ์ ๋ํ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ์ฌ ๋ณด๊ดํ๋ค๋ ๊ฒ์ด ์๋ ค์ก๋ค
๊ธฐ์กด ๋ค์ค์์ด์ ํธ ์๊ณ ๋ฆฌ์ฆ๋ค์ ์์ด์ ํธ๊ฐ์ ํต์ ํ๋ ๋ฐฉ์์ ๋ํด์ ๋ ผํ๋ฉด์, ์ ๋ฌ ํ๋ ๋ฉ์์ง๋ ์ ๊ฒฝ๋ง์ผ๋ก๋ถํฐ ์์ฑ๋ ์ถ๋ ฅ์ด์๋ค. ์์ฑ๋ ์ถ๋ ฅ์ ์ ๋ ฅ์ ๋ํ ์ ๋ณด๋ฅผ ๋ด์ ์ ์์ง๋ง, ์ ๋ณด์ฒ๋ฆฌ ๊ด์ ์์ ์ ๊ฒฝ๋ง์ด ๊น์ด์ง์๋ก ์ ๋ ฅ์ ์ ๋ณด๋ ํฌ์๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ๋ ฅ ๋ํ ์ค์ํ ์ ๋ณด์ด๋ฉฐ, ๋๋ก๋ ์ ๊ฒฝ๋ง์ผ๋ก๋ถํฐ ์์ฑ๋ ์ ๋ณด๋ณด๋ค ๋์ฑ ์์ ์ ์ผ๋ก ๋ค์ค์์ด์ ํธํ์ต์ ๋์์ด ๋ ์ ์๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆผ1์ ์ ๊ฒฝ๋ง์ด ๊น์ด์ง์๋ก ์ฃผ๊ด์ ์ธ ์ ๋ณด๊ฐ ์ ์ฐจ ์ฆ๊ฐํ๋ค๋ ๊ฒ์ ๋ณด์ด๋ฉฐ, ์ ์ํ๋ ๋ฐฉ๋ฒ์ ๋จ์ํ ์ ๊ฒฝ๋ง์ ์ถ๋ ฅ๋ฟ๋ง์๋๋ผ ์ฒ๋ฆฌ๊ณผ์ ์ ์ค์ผ ํ๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋ฌ๋ ์ฒ๋ฆฌ๊ณผ์ ์ ๋ชจ๋ ์ ๋ฌํ๋ ๊ฒ์ ์ ๋ณด์ ๋ฌ์ ์ธก๋ฉด์์ ํจ์จ์ ์ด์ง ๋ชปํ๋ค. ๋ฐ๋ผ์, ๊ฐ์ฅ ์ฒ์๊ณผ ๋ ์ ๋ณด๋ง ์ ๋ฌํ๋ ๊ฒ์ดํธ ๊ธฐ๋ฐ ์ ๋ณด์ ๋ฌ ๋ฐฉ์์ ์ ์ํ๋ค. ๊ฒ์ดํธ ๊ธฐ๋ฐ ์ ๋ณด ์ ๋ฌ์ ๊ธฐ์กด์ ์ ์๋์๋ ๋ฐฉ์์ด๋, ๋ค์ค-์์ด์ ํธ ํ๊ฒฝ์์ ์ ์ํ๋ ๊ฒ์ ๋ณธ ๋ ผ๋ฌธ์ด ์ฒ์์ผ๋ก ์ ์ํ๋ ๋ด์ฉ์ด๋ค.
์ ๋ฌ์ ์์ด์ ํธ (sender agent) ์ $t$ ์๊ฐ์ ๊ด์ฐฐ๊ฐ์ $o_t^{(s)} \in \mathbf{R}^{obs}$, ์ ๊ฒฝ๋ง์ผ๋ก๋ถํฐ ๋ง๋ ํํ๊ฐ์ $h_t^{(s)} \in \mathbf{R}^d$ ๋ผ๊ณ ํ์. ์ ๋ฌ์ ์์ด์ ํธ๋ ๋ ๊ฐ์ง ์ ๋ณด๋ฅผ ๋ค ์ก์ถํ๊ณ , ์์ ์ ์์ด์ ํธ (receiver agent) ๋ ๋ ์ ๋ณด์ ๋ํด์ ์ ์ ํ๋ ์๋ ๋ฐฉ์์ผ๋ก ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ค. ์ด ๋, ์ ํ๋ณด๊ฐ๊ฐ $\sigma^{(r)}$ ๋ฅผ ์ฌ์ฉํ์ฌ, ์ ํ๋ณด๊ฐ๋ ์ ๋ณด $g_t^{(r,s)}$ ๋ฅผ ์์ฑํ๋ค. ์์ด์ ํธ๋ ๋ ๊ฐ์ง ์ ๋ณด์ค์์ ํ์ํ ์ ๋ณด์ ๊ฐ์ค์น๋ฅผ ์ฃผ๊ณ ์ ํํ๊ฒ ๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๊ฒ์ดํ ๋ฐฉ์ (Gating Mechanism)์ผ๋ก ํ์ํ ์ ๋ณด์ ๋ํ ํ๋ก๋ฅผ ์ด์ด์ ์ ๋ณด๋ฅผ ์ ๋ฌํ๋ค.
\[g_t^{(r,s)} = \sigma_t^{(r)} h_t^{(s)} + (1 - \sigma_t^{(r)}) \hat{o}_t^{(s)}\]์ด ๋, $\hat{o}$ ์ ๊ด์ฐฐ๊ฐ์ ์ฐจ์์ ์ ํ๋ณํํ์ฌ, ์ ๊ฒฝ๋ง์ ํํ๊ฐ๊ณผ ๋์ผํ ์ฌ์ด์ฆ๋ก ๋ง๋ ๊ฐ์ด๋ค.
๋ค์ค ์์ด์ ํธ์ ๋ฉ์์ง ์ ๋ฌ์ ๋ถ์ ํ๊ธฐ ์์์, ๋ค์ค ์์ด์ ํธ ์ํฉ์์ ๋ฉ์์ง ์ ๋ฌ์ ์๋ฏธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๋จํ ์คํ์ ๋จผ์ ์งํํ๋ค. ์์ด์ ํธ๊ฐ์ ๋ฉ์์ง ์ ๋ฌ์ ์ ๋ฌํ ๋ฉ์์ง๊ฐ ์ฌ์ฉํ๋ ์ชฝ์์ ๊ฐํํ์ต ์ต์ ํ ์๊ทธ๋๋ก ํ์ต๋๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์, ๋ฉ์์ง ์ ๋ฌ์ ์์ ์์ ๋ฉ์์ง๊ฐ ์ก์ ์์ ๊ฐํํ์ต์ผ๋ก ํ์ต๋๋ ๊ตฌ์กฐ์ด๋ค. ์ด๋ ๋จ์ํ ํ๋์ ์์ด์ ํธ์์ ๋ ๊ฐ์ ์ ๊ฒฝ๋ง ๋ชจ๋์ ์ง๋๊ณ ํ์ตํ๋ ๊ฒ๊ณผ ๋์ผํ ์ํฉ์ด๋ค. ๋ฐ๋ผ์, ๋จ์ผ ์์ด์ ํธ์์ ๋ ๋ชจ๋์ ์ฌ์ฉํ์ฌ ๋ฉ์์ง ์ ๋ฌ์ ์์ ์ฑ์ ๋ํด์ ๋จผ์ ๋ถ์ํ๋ค. ๊ทธ๋ฆผ์ ๋ ๋ชจ๋์ ๋ํด์ ๊ฐ๋ฅํ ์ธ ๊ฐ์ง ๋ฉ์์ง ์ ๋ฌ ๋ฐฉ์์ ๋ณด์ฌ์ค๋ค. ์ถ๊ฐ์ ์ผ๋ก ๋ฉ์์ง์ ์์ ์ฑ์ ํ์ธํ๊ธฐ ์ํด์, ๋ฉ์์ง์ ์ฝ๊ฐ์ ๋ ธ์ด์ฆ๋ฅผ ๋ํ๋ ๋ฐฉ์์ผ๋ก ๋ฉ์์ง๋ฅผ ๋ณํํ์๋ค.
์ ์ผ ๋จผ์ ํ์ธํด์ผ ํ๋ ๊ฒ์ ์์ด์ ํธ๊ฐ ๊ด์ฐฐํ๋ ๊ฐ์ ๊ทธ๋๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ด๋ ์ ๊ฒฝ๋ง์ผ๋ก ๋ฉ์์ง๋ฅผ ๋ง๋๋ ๊ด์ ์์ ๋ดค์ ๋, ์ ๊ฒฝ๋ง์ด ํญ๋ฑํจ์์ธ ๊ฒฝ์ฐ์ ๋์ผํ๋ค. ์์ด์ ํธ๊ฐ ๋ฐ๋ ๋ฉ์์ง๋ ์ด์ ์์ด์ ํธ์ ๊ด์ฐฐ ์ํ์ด๋ค.
๋ ๋ฒ์งธ ๋ฐฉ๋ฒ์ ๋คํธ์ํฌ๋ก๋ถํฐ ๊ด์ฐฐ๊ฐ์ ๊ฐ๊ณตํ์ฌ ์ ๋ฌํด์ฃผ๋ ๊ฒ์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ธฐ์กด ๋ค์ค ์์ด์ ํธ ๋ฉ์์ง ์ ๋ฌ ๋ฐฉ๋ฒ๊ณผ ๋์ผํ๋ค.
์ธ ๋ฒ์งธ ๋ฐฉ๋ฒ์ ๊ด์ฐฐ๊ฐ๊ณผ ๋ฅ๋ฌ๋ ๋ฉ์์ง๋ฅผ ์์ด์ ํธ๊ฐ ์ง์ ๊ณ ๋ฅด๋ ๋ฐฉ์์ด๋ค. ์์ด์ ํธ๋ ์ ์ ํ ๋น์จ๋ก ๊ด์ฐฐ๊ฐ๊ณผ ์ฌ์ธตํํ์ ์ ํ๋ณด๊ฐํ๋ ๋ฐฉ์์ผ๋ก ํ์ตํ๋ค. ๋ง์ผ ์ ๋ฌ๋ ๋ฉ์์ง๊ฐ ์ฌ์ธตํํ์ด ํ์ํ์ง ์๋๋ค๋ฉด, ์์ด์ ํธ๋ ๋จ์ํ ๋ค๋ฅธ ์์ด์ ํธ์ ๊ด์ฐฐ๊ฐ์ ์ฌ์ฉํ ๊ฒ์ด๋ค.
์๋ ๊ทธ๋ฆผ์ CartPole-V0 ํ๊ฒฝ์์ 100K ์ํ์ ๋ํด์ ์ธ๊ฐ์ง ๋ฐฉ์์ผ๋ก ํ์ตํ ๊ฒฐ๊ณผ์ด๋ค. ๊ฒฐ๊ณผ๋ 2๊ฐ์ ๋๋ค์๋๋ฅผ ํ๊ท ํ์ฌ ๋ํ๋๊ณ , 95% ์ ๋ขฐ๋ ๊ตฌ๊ฐ์ ํํํ์๋ค. ๊ฒ์ดํธ ๊ธฐ๋ฐ์ ์์ด์ ํธ๋ ๋ ธ์ด์ฆ๊ฐ ์๊ฑฐ๋ ์ ์ ํ๊ฒฝ์์ ๋จ์ ๊ด์ฐฐ๊ฐ ๊ธฐ๋ฐ ์์ด์ ํธ๋ณด๋ค ๋๊ฑฐ๋ ์์ ์ ์ธ ์ฑ๊ณผ๋ฅผ ๋ณด์๋ค. ๊ทธ๋ฌ๋, ๋ ธ์ด์ฆ๊ฐ ์ฌํ ํ๊ฒฝ์์๋ ๋จ์ ๊ด์ฐฐ๊ฐ ๊ธฐ๋ฐ ์์ด์ ํธ๋ณด๋ค ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์๋ค. RNN ์ฌ์ธตํํ ๊ธฐ๋ฐ ์์ด์ ํธ๋ ํ์ต์ ์์ ์ฑ์ผ๋ก ์ธํด์ ์ฑ๋ฅ์ด ์ข์ง ๋ชปํ ๊ฒ์ ํ์ธํ ์ ์๋ค.
๊ฒ์ดํธ ๊ธฐ๋ฐ ์์ด์ ํธ๋ฅผ ๋์ฑ ๋ถ์ํ๊ธฐ ์ํด์, ์ ํ๋ณด๊ฐ์ ์ฌ์ฉ๋ ๊ฐ์ ๋ถ์ํ์๋ค. ์๋ ๊ทธ๋ฆผ์ ์ ํ๋ณด๊ฐ ์ด๊ธฐ๊ฐ 1๋ก๋ถํฐ ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ์ ์ฆ๊ฐํ๋ ๊ฒฝํฅ์ฑ์ ๋ณด์ฌ์ค๋ค. ์ด ๊ฒฝํฅ์ฑ์ 1.2 ์์ค์์ ๋ฉ์ท๋๋ฐ, ์ด๋ ์ฌ์ธต๋ง ๊ธฐ๋ฐ ํํ๊ฐ์ 0.2% ์ ๋ ์๋ ๊ฒ์ผ๋ก ๊ณ ๋ คํ ์ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์คํ์ ์์ด์ ํธ ๊ฐ์ ์ปค๋ฎค๋์ผ์ด์ ์ด ์ค์ํ๊ณ , ์ ๋ฌํ๋ ์ ๋ ฅ ์ ๋ณด๊ฐ ๊ทธ ์์ฒด๋ก๋ ์ฐ์์๊ฐ ์๋ ํ๊ฒฝ์ ์ ํํ์๋ค. Mate ํ๊ฒฝ์ ํ๊ฒ๋ค์ด ์ ๋ณด๋ฅผ ์ ๋ฌํ๊ณ ์ฌ๋ฌ ๋์ ์นด๋ฉ๋ผ๊ฐ ์ ๋ณด๋ฅผ ํ๊ฒ์ ๊ฐ์ํ๋ ํ๊ฒฝ์ด๋ค. ์ด ๋ ๊ฐํํ์ต์ผ๋ก ํ์ตํ ์์ด์ ํธ๋ ์นด๋ฉ๋ผ๋ก ํ๊ฒ๋ค์ ํ์์ ์ธ ๋ฐฉ์์ผ๋ก ๋ฌผํ์ ์ฎ๊ธด๋ค๊ณ ๊ฐ์ ํ์๋ค. ์นด๋ฉ๋ผ๋ค์ ํ๊ฒ๋ค์ ๊ฐ์ํ ํ์์ ๋ฐ๋ผ์ ๋ณด์์ ๋ฐ๊ฒ ๋๋ค.
๋ฉํฐ์์ด์ ํธ ๋ชจ๋ธ์ ๊ธฐ์กด TarMAC ์ ์ฌ์ฉํ์๊ณ , ๋ฉ์์ง ์ ๋ฌ ๋ฐฉ์์ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์์ ํ์๋ค. ์ ๋ฌ์ ์์ด์ ํธ๊ฐ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ํํ๊ฐ๊ณผ ๊ด์ฐฐ๊ฐ์ ๋ชจ๋ ์ ๋ฌํด์ฃผ๋ฉด, ์์ ์ ์์ด์ ํธ ์ชฝ์์ ๊ฐ์ ๊ฒ์ดํธ๋ฅผ ํ์ฉํ์ฌ ํํฐ๋งํ๋ ๋ฐฉ์์ด๋ค. ์ด ๋, ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ํํ๊ฐ์ RNN์ ํตํด์ ๋ง๋ค์ด์ง๋ค.
์๋ ๊ทธ๋ฆผ์ 2vs2 ์ 4vs2 ํ๊ฒฝ์์ 4M ์ํ์ ๋ํด์ ํ์ตํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. Vs ์์ ์๋ ์นด๋ฉ๋ผ ๊ฐ์๋ฅผ, ๋ค์ ์๋ ํ๊ฒ ๊ฐ์๋ฅผ ๋ํ๋ธ๋ค. ์์ด์ ํธ๊ฐ ์ปค๋ฎค๋์ผ์ด์ ์ด ์ ์ 2vs2 ํ๊ฒฝ์์๋ ๋จ์ํ ๊ด์ฐฐ๊ฐ์ ์ ๋ฌํ ๊ฒ์ด ์ฑ๋ฅ์ด ๋์๋ค. ๋ํ ์ฌ์ธต๋ง ํํ๊ฐ์ ์ฌ์ฉํ ๊ฒฝ์ฐ, ์ฑ๋ฅ์ ํธ์ฐจ๊ฐ ์ฌํ ๊ฒ์ ํ์ธํ ์ ์๋ค. ๋ฐ๋ฉด์ ๊ฒ์ดํธ ๊ธฐ๋ฐ ๋ฉ์์ง ์ ๋ฌ์ ํธ์ฐจ๊ฐ ์ ๋ค. 4vs2 ํ๊ฒฝ์์๋ ๊ฒ์ดํธ ๊ธฐ๋ฐ์ ๋ฉ์์ง ์ ๋ฌ์ด ๋์ ์ฑ๋ฅ์ ๋ณด์๋๋ฐ, ์ด๋ ์์ด์ ํธ๊ฐ ๋ฉ์์ง ์ ๋ฌ์ด ํ๋ฐํ๊ณ ์ ๋ฌํ๋ ๋ฉ์์ง๊ฐ ๊ฐ๊ณฝ์ ์ธ ์ ๋ณด์ ์ฃผ๊ด์ ์ธ ์ ๋ณด๋ฅผ ๋ชจ๋ ํฌํจํด์ผ ๋์ ์ฑ๋ฅ์ ๊ฐ์ง์ ๋ํ๋ธ๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ๋ค์ค์์ด์ ํธ์์ ๊ฒ์ดํธ ๊ธฐ๋ฐ ๋ฉ์์ง ์ ๋ฌ์ ์ ์ํ๋ค. ์ ์ํ ๊ฒ์ดํธ ๊ธฐ๋ฐ ๋ฉ์์ง ์ ๋ฌ์ ์ฌ์ธต์ ๊ฒฝ๋ง์ ๋ถ์์ ์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์คํ์ ์ผ๋ก ์ ์ ํ ๊ฒ์ดํธ ๋ฐฉ์์ด ํจ์จ์ ์์ ๋ณด์๋ค. ๋ณธ ์ฐ๊ตฌ์์ ๋ฐ๊ฒฌํ ์ ์ ๊ฒ์ดํธ ๋ฐฉ์์ ์ด๋ฐ์ ๊ด์ฐฐ๊ฐ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉด์ ์ ์ง์ ์ผ๋ก ์ฌ์ธต์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๋ฉ์์ง๋ฅผ ์ฒจ๊ฐํ๋ ๋ฐฉ์์ด ํจ์จ์ ์ด๋ค๋ ์ ์ด๋ค. ์ด๋ฌํ ์์ ์ ์ธ ๋ฉ์์ง ์์ฑ์ ๋ถ์์ ํ ๋ค์ค๊ฐํํ์ต์์ ๋ณด๋ค ์์ ์ ์ธ ํ์ต, ๋น ๋ฅธ ํ์ต ๊ฒฐ๊ณผ๋ฅผ ์ด๋ฃจ๋๋ฐ ๋์์ด ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.