<aside> 💡 **2021년 1월 버클리, 페이스북 AI 리서치, 구글 브레인 등에서 공동연구해 발행한 논문으로 강화학습에 GPT-2를 적용해 Off-policy RL에서 대두되는 Dead Triad를 우회할 수 있다고 한다. (paper | code)

목차 ——**

</aside>


Preliminaries

읽고오면 좋은 내용들

Transformer

Deadly Triad란

강화학습 + Transformer

Offline RL과 비슷한 접근법들

Imitation Learning

Summary

Decision Transformer는 주로 offline RL의 문제에 주목했다.

특히, bootstrapping error는 offline RL에서 고질적인 문제라고 평가받는다. 이를 해결하기 위해 Q-value를 conservation[1] 혹은 normalization[2]을 통해 인위적으로 조정해주는 연구들이 주를 이루었다. 하지만 이러한 방법들은 구현이 복잡하고 학습 성능이 제약 조건에 매우 예민한 경향을 보인다는 단점이 있다.