1. INTRODUCTION

Summary

→ centralized training

→ decentralized execution

어떤 agent의 행동이 reward에 직접 영향을 미쳤는지 (credit assignment)
- COMA (Counterfactual Multi-Agent Policy Gradients)
agents 사이에서의 common knowledge
- MACKRL (Multi-Agent Common Knowledge Reinforcment Learning)
replay buffer 를 어떻게 활용할 것인가?
Communication protocol (between agents)
- RIAL (Reinforced Inter-Agent Learning)
  - environment에 영향을 주지 않는 message를 agent끼리 주고받는 방식
- DIAL (Differentiable Inter-Agent Learning)
  - RIAL보다 섬세하게 communication이 이루어짐.
- BAD (Baysian Action Decoder)
  - environment에 영향을 주는 action 자체를 communication 방법으로 사용하는 경우