<aside> 💡 Google에서는 Regret bound를 강화학습에 적용시키는 연구가 활발해보인다. 기초지식을 위해 아래 강의를 한번 따라가 보자

https://arxiv.org/pdf/1204.5721.pdf (요건 약간 책이라서 이거보고 공부해도 될듯) https://people.eecs.berkeley.edu/~jiantao/2902021spring/material.html https://www.cs.umd.edu/~slivkins/CMSC858G-fall16/

</aside>

마르코프 부등식 (Markov’s inequality)

$X$가 음수가 아닌 랜덤 변수일 때,

$$ P(X\geq t) \leq\frac{E(X)}{t}, \text{ where }t > 0 $$

Pros

체비셰프 부등식 (Chebyshev’s inequality)

$X$가 랜덤 변수일 때,

$$ P(|X-\mu|\geq t)\leq \frac{\sigma^2}{t^2} $$

실제 사용시에는 모평균, 모분산은 구하기 어렵다. 그러므로, 표본평균과 표본분산을 대체해서 사용한다.

Pros

Cons

변형식