2.1 Reinforcement Learning
2.2 Multi-Agent Settings
$$
G=<S,U,P,r,Z,O,n,\gamma>
$$
- $S$ : agent가 위치한 state에 대한 전체 집합
- $U$ : 각 agent가 취할 수 있는 action에 대한 전체 집합.
- 한 agent의 action $u^a\in U$에 대해, $n$개의 agent에 대한 joint action은 $u\in U =U^n$으로 나타낼 수 있음.
- $P$ : $P(s|s,u)$ → 한 state에서 joint action $u$ 에 의해 다음 state가 될 확률에 대한 집합입니다.
- $r$ : $r(s,u,a) : S\times U\times A$ → 한 state에서 joint action $U$에 의해 한 agent가 받는 reward (scalar 값).
- $Z$ : observation 전체에 대한 집합. $o_t^a\in Z$
- $O$ : observation function. agent가 어느 state에 존재할 때, observable한 영역은 $O(s,a): S\times A \rightarrow Z$
- $n$ : agent 개수
- $\gamma$ : discount factor
2.3 Centralized vs Decentralized Control
Centralized Control
- fully observable한 상황에서 전체를 총괄하는 하나의 agent를 만듦.
$$
\pi^C(u|s_t): U\times S\rightarrow [0,1]
$$
- 하지만 두가지의 큰 문제점이 존재함.
- joint action space $U$는 agent들의 action이 combinatorial 하게 결합된 형태.
- $P(u^1|s^1)\cdot P(u^2|s^2)\cdot \cdot \cdot P(u^n|s^n)$
- action space가 exponential 하게 증가하므로 확장성에 굉장한 제약이 됨.
- local observation 상황에서의 적용이 불가함. ( masking 문제? )
Decentralized Control
- Agent가 각자의 local policy를 사용함.