2. BACKGROUND | Notion

2.1 Reinforcement Learning

$$ G=<S,U,P,r,Z,O,n,\gamma> $$

$S$ : agent가 위치한 state에 대한 전체 집합
$U$ : 각 agent가 취할 수 있는 action에 대한 전체 집합.
- 한 agent의 action $u^a\in U$에 대해, $n$개의 agent에 대한 joint action은 $u\in U =U^n$으로 나타낼 수 있음.
$P$ : $P(s|s,u)$ → 한 state에서 joint action $u$ 에 의해 다음 state가 될 확률에 대한 집합입니다.
$r$ : $r(s,u,a) : S\times U\times A$ → 한 state에서 joint action $U$에 의해 한 agent가 받는 reward (scalar 값).
$Z$ : observation 전체에 대한 집합. $o_t^a\in Z$
$O$ : observation function. agent가 어느 state에 존재할 때, observable한 영역은 $O(s,a): S\times A \rightarrow Z$
$n$ : agent 개수
$\gamma$ : discount factor

$$ \pi^C(u|s_t): U\times S\rightarrow [0,1] $$

하지만 두가지의 큰 문제점이 존재함.
- joint action space $U$는 agent들의 action이 combinatorial 하게 결합된 형태.
  - $P(u^1|s^1)\cdot P(u^2|s^2)\cdot \cdot \cdot P(u^n|s^n)$
  - action space가 exponential 하게 증가하므로 확장성에 굉장한 제약이 됨.
- local observation 상황에서의 적용이 불가함. ( masking 문제? )