Primary Bias in RL 논문 리뷰 (ICML 2022)

이 포스팅은 The Primacy Bias in Deep Reinforcement Learning 논문에 대한 공부입니다.

이 글은 The Primacy Bias in Deep Reinforcement Learning 논문에 대한 리뷰입니다.

1. Introduction

강화학습 에이전트는 순처적으로 새로운 데이터를 마주하고 모델을 업데이트하여 더 나은 행동을 배운다. 지속적으로 모델을 업데이트하면서 기존 정보들은 잊거나 업데이트하며 새로운 정보들을 학습하여 행동을 업데이트 한다.

아무 정보도 없는 사람이 배우는 것과 정보를 알고 있는 사람의 배우는 속도에 차이가 있음은 자명하다. 또한 잘못된 정보를 가지고 있다면, 이를 지우고 새로운 정보를 학습하는 것은 학습이 더욱 오래 걸릴 수 있다.

마찬기지로 모델의 초기 파라미터에 대해서 특정 행동을 배우는 것과 기존 학습된 모델 파라미터에 대해서 새로운 행동을 배우는 것은 차이가 있다.

이 연구에서는 초기에 학습한 정보에 대한 편향이 강화학습 에이전트의 이후 학습에 대해서도 큰 영향을 끼친다는 점을 탐구하였고, 특정 레이어에 대한 reset 방식이 모델 성능을 더욱 개선시킬 수 있다는 점을 보였다.

Pre-Questions and Answers

  1. Primary Bias의 정의는 무엇인가? : 초반에 관찰한 데이터에 대한 학습이 이후 학습에 영향을 끼치는 것.
  2. Primary Bias는 어떻게 측정하는가? : 초기 데이터에 대해서 학습된 레이어를 리셋한 경우 학습 속도가 더욱 빠르다면 파라미터가 bias된 것이다.
  3. Primary Bias는 RL 알고리즘에 영향을 받는가? : 아니다. 다양한 알고리즘에 대해서 모두 reset을 해줘야 더욱 빠르게 학습됨을 확인하였다.
  4. Primary Bias는 어떻게 해소될 수 있는가? : 파라미터 리셋. 그러나 모델 구조 혹은 알고리즘마다 리셋을 하는 위치가 다르다. 또한 reset period는 경험적으로 찾아져야 한다.
  5. Primary Bias에 대해서 learning rate을 키우는 경우 해소될 수 있는가? : 아니다. learning rate이 크다고 해도 이미 학습된 표현을 바꿔야 하기에, 적절하지 못한 pre-trained parameter는 문제가 될 수 있다.

Historical Notes

Main Contribution of Paper

에이전트의 레이어를 periodically resetting 하여 primary bias를 제거하였다. (Atari 100k, DeepMind Control Suite)

Idea

“Your assumptions are your windows on the world. Scrub them off every once in a while, or the light won’t come in.”

-Issac Asimov

둘 중에서 더 나은 에이전트는 누구일까?

둘 다 깨끗한 데이터에 대해서 학습을 진행해도, Bob의 경우 이전에 배웠던 정보들이 머릿속 무의식에 남아있어 모델 성능을 저하시킬 수 있다 a cognitive bias demonstrated by studies of human learning (Marshall & Werder, 1972; Shteingart et al., 2013) .

이는 초반에 학습한 품질이 낮은 데이터가 이후 학습에 영향을 준다는 점을 시사한다. 연속적인 데이터에 대해서 학습하는 RL이 지니는 primary bias를 탐구할 필요가 있다.

The Primacy Bias in Deep RL: a tendency to overfit early experiences that damages the rest of the learning process.

Heavy Priming

Heavy Priming Causes Unrecoverable Overfitting

Could overfitting on a single batch of early data be enough to entirely disrupt an agent’s learning process?

실험 세팅은 다음과 같다.

  1. Soft Actor Critic
  2. quadruped-run (DeepMind Control suite)
  3. heavy priming: after collecting 100 data points, we update the agent $10^5$ times using the resulting replay buffer, before resuming standard training.

Primate Data

Question: is the data collected by an overfitted agent unusable for learning?

  1. We train a SAC agent with 9 updates per step in the MDP: due to the primacy bias, this agent performs poorly.
  2. Then, we initialize the same agent from scratch but use the data collected by the previous SAC agent as its initial replay buffer

The primacy bias is not a failure to collect proper data per se, but rather a failure to learn from it.

Experiments

Learning Dynamics

Replay Ratio

Replay를 더욱 자주 하는 경우 모델의 파라미터는 더욱 초기 데이터에 편향적으로 편한다. 따라서 reset을 했을 때 성능향상이 크게 나타났다.

TD Learning

TD learning에서는 horizon에 대한 $n$ 값을 컨트롤하여 state-action value에 대한 추정을 진행한다. 만일 $n$이 작다면 variance가 작아지고, $n$이 크다면 variance가 커지고 bias는 작아지게 된다.

\[\mathbb{E}_\pi [r(s_t, a_t) + \gamma r(s_{t+1}, r_{t+1}), \cdots, \gamma^n Q_\pi(s_{t+n}, a_{t+n})]\]

Here, $n$ controls a trade-off between the (statistical) bias of Qπ estimates and the variance of the sum of future rewards.

Variance가 클수록 return 값은 더욱 들쭉날쭉이 되고, 초기 데이터에 더욱 편향적이다. 파라미터 reset을 했을 때 성능향상이 컸다.

TD Failure

TD failure modes Temporal-difference learning, when employed jointly with function approximation and offpolicy training, is known to be potentially unstable (Sutton & Barto, 2018). In sparse-reward environments, the critic network might converge to a degenerate solution because of bootstrapping mostly on it’s own outputs (Kumar et al., 2020); having the non-zero reward data might not sufficient to escape a collapse

Reset What and How

We conjecture that the difference lies in the degree of representation learning required for each domain: a significant chunk of knowledge in Atari is contained in the agent’s representations; it might be notably easier to learn features in DeepMind Control, especially when dealing with dense states.

Conclusion