Summary
- Collaborate (협력)
- Communicate (소통)
- Reciprocate (상호간의 영향을 주는)
→ centralized training
→ decentralized execution
-
어떤 agent의 행동이 reward에 직접 영향을 미쳤는지 (credit assignment)
- COMA (Counterfactual Multi-Agent Policy Gradients)
-
agents 사이에서의 common knowledge
- MACKRL (Multi-Agent Common Knowledge Reinforcment Learning)
-
replay buffer 를 어떻게 활용할 것인가?
-
Communication protocol (between agents)
- RIAL (Reinforced Inter-Agent Learning)
- environment에 영향을 주지 않는 message를 agent끼리 주고받는 방식
- DIAL (Differentiable Inter-Agent Learning)
- RIAL보다 섬세하게 communication이 이루어짐.
- BAD (Baysian Action Decoder)
- environment에 영향을 주는 action 자체를 communication 방법으로 사용하는 경우
1.1 The Industrial Revolution, Cognition, and Computers
- 기존에 많이 발전된 Supervised Learning의 중요한 가정 중 하나는 데이터끼리의 independent 함이다.
- 행동에 따라 시시각각 변화하는 데이터들에 대해 대응하기 힘들다.
- 이러한 상황들을 해결하기 위해 제시된게 Reinforcement Learning 이다.
1.2 Deep Multi-Agent Reinforcment-Learning