3.1 Introduction
- Counterfactual Multi-Agent Policy Gradient (COMA)
- centralized critic 이용 (agent는 decentralized) → Credit Assignment Problem 해결 가능?
- counterfactual baseline을 이용 → 각자의 agent가 global reward에서 현재 action이 아닌 default action을 취했을 때의 받을 reward를 비교해서 만듦. (agent가 많을 경우, 과부하가 안걸리나?)
- 단 한번의 networt forward pass로 모든 agent의 Q-value 계산.