이 포스팅은 The Primacy Bias in Deep Reinforcement Learning 논문에 대한 공부입니다.
이 글은 The Primacy Bias in Deep Reinforcement Learning
강화학습 에이전트는 순처적으로 새로운 데이터를 마주하고 모델을 업데이트하여 더 나은 행동을 배운다. 지속적으로 모델을 업데이트하면서 기존 정보들은 잊거나 업데이트하며 새로운 정보들을 학습하여 행동을 업데이트 한다.
아무 정보도 없는 사람이 배우는 것과 정보를 알고 있는 사람의 배우는 속도에 차이가 있음은 자명하다. 또한 잘못된 정보를 가지고 있다면, 이를 지우고 새로운 정보를 학습하는 것은 학습이 더욱 오래 걸릴 수 있다.
마찬기지로 모델의 초기 파라미터에 대해서 특정 행동을 배우는 것과 기존 학습된 모델 파라미터에 대해서 새로운 행동을 배우는 것은 차이가 있다.
이 연구에서는 초기에 학습한 정보에 대한 편향이 강화학습 에이전트의 이후 학습에 대해서도 큰 영향을 끼친다는 점을 탐구하였고, 특정 레이어에 대한 reset 방식이 모델 성능을 더욱 개선시킬 수 있다는 점을 보였다.
주로 cognitive science에서 인지 관련하여 기존에 알고 있던 편향이 이후에도 의식 혹은 무의식적으로 남아있다는 것이 알려져있다.
Reset관련해서는 최근 연구된 Dormant Neuron (학습 과정에서 꺼지는 뉴런이 발생하는) 현상과 연관되어 있다.
특정 레이어 (특히 마지막 레이어)를 리셋하는 것은 NLP 혹은 vision에서 마지막 레이어를 특정 테스크에 대해서 새롭게 학습하고 기존 feature extractor는 freeze하는 것과 유사하다.
에이전트의 레이어를 periodically resetting 하여 primary bias를 제거하였다. (Atari 100k, DeepMind Control Suite)
“Your assumptions are your windows on the world. Scrub them off every once in a while, or the light won’t come in.”
-Issac Asimov
둘 중에서 더 나은 에이전트는 누구일까?
둘 다 깨끗한 데이터에 대해서 학습을 진행해도, Bob의 경우 이전에 배웠던 정보들이 머릿속 무의식에 남아있어 모델 성능을 저하시킬 수 있다
이는 초반에 학습한 품질이 낮은 데이터가 이후 학습에 영향을 준다는 점을 시사한다. 연속적인 데이터에 대해서 학습하는 RL이 지니는 primary bias를 탐구할 필요가 있다.
The Primacy Bias in Deep RL: a tendency to overfit early experiences that damages the rest of the learning process.
Heavy Priming Causes Unrecoverable Overfitting
Could overfitting on a single batch of early data be enough to entirely disrupt an agent’s learning process?
실험 세팅은 다음과 같다.
Question: is the data collected by an overfitted agent unusable for learning?
The primacy bias is not a failure to collect proper data per se, but rather a failure to learn from it.
Replay를 더욱 자주 하는 경우 모델의 파라미터는 더욱 초기 데이터에 편향적으로 편한다. 따라서 reset을 했을 때 성능향상이 크게 나타났다.
TD learning에서는 horizon에 대한 $n$ 값을 컨트롤하여 state-action value에 대한 추정을 진행한다. 만일 $n$이 작다면 variance가 작아지고, $n$이 크다면 variance가 커지고 bias는 작아지게 된다.
\[\mathbb{E}_\pi [r(s_t, a_t) + \gamma r(s_{t+1}, r_{t+1}), \cdots, \gamma^n Q_\pi(s_{t+n}, a_{t+n})]\]Here, $n$ controls a trade-off between the (statistical) bias of Qπ estimates and the variance of the sum of future rewards.
Variance가 클수록 return 값은 더욱 들쭉날쭉이 되고, 초기 데이터에 더욱 편향적이다. 파라미터 reset을 했을 때 성능향상이 컸다.
TD failure modes Temporal-difference learning, when employed jointly with function approximation and offpolicy training, is known to be potentially unstable (Sutton & Barto, 2018). In sparse-reward environments, the critic network might converge to a degenerate solution because of bootstrapping mostly on it’s own outputs (Kumar et al., 2020); having the non-zero reward data might not sufficient to escape a collapse
We conjecture that the difference lies in the degree of representation learning required for each domain: a significant chunk of knowledge in Atari is contained in the agent’s representations; it might be notably easier to learn features in DeepMind Control, especially when dealing with dense states.