<aside>
💡 **2021년 1월 버클리, 페이스북 AI 리서치, 구글 브레인 등에서 공동연구해 발행한 논문으로 강화학습에 GPT-2를 적용해 Off-policy RL에서 대두되는 Dead Triad를 우회할 수 있다고 한다. (paper | code)
목차 ——**
</aside>
Preliminaries
읽고오면 좋은 내용들
Transformer
Deadly Triad란
강화학습 + Transformer
- SNAIL - A simple neural attentive meta-learner, 2017
- DTQN - Transformer Based Reinforcement Learning for Games, 2019
- GTrXL - Stabilizing transformers for reinforcement learning, 2020
Offline RL과 비슷한 접근법들
Imitation Learning
- Expert의 행동들을 수집해 에이전트를 학습
- 학습 중엔 데이터가 따로 추가 되지 않으며, 그러므로 별도의 reward function이 필요하지 않다.
- 접근 방식으로는 Behavior cloning 혹은 Inverse RL 등이 있다.
Summary
Decision Transformer는 주로 offline RL의 문제에 주목했다.
- Offline RL 을 위한 데이터 수집은 높은 비용과 시간이 소모된다.
- Out of distribution actions는 Bootstrapping error를 발생시킨다.
- 보지 못한 state 혹은 action에 대해서 **overestimation문제(Q-value를 너무 높게 평가하는 현상)**가 발생한다.
특히, bootstrapping error는 offline RL에서 고질적인 문제라고 평가받는다. 이를 해결하기 위해 Q-value를 conservation[1] 혹은 normalization[2]을 통해 인위적으로 조정해주는 연구들이 주를 이루었다. 하지만 이러한 방법들은 구현이 복잡하고 학습 성능이 제약 조건에 매우 예민한 경향을 보인다는 단점이 있다.