$$
\text{minimize}_x f(x), \ \ \
\text{subject to } x\in\mathcal{X}
$$
“no free lunch theorem” by Wolpert, Marcready
가능한 목적함수의 공간에 대한 확률 분포를 가정하지 않으면 어떤 알고리즘을 다른 알고리즘보다 더 선호할 이유가 없다.
Local minima
- strong local minima - 특정 영역에서 유일하게 극소값을 가지는 해
- weak local minima - 나머지의 여집합 (극소값을 가지는 해가 여러개인 경우?)
조건
- $f^\prime(x^*)=0$ (=stationary point) → 미분 = gradient
- $f^{\prime\prime}(x^*)>0$ → Hessian Matrix
요약
- 공학에서의 최적화는 일련의 제약식하에 최적 시스템 설계를 발견하는 프로세스
- 최적화는 함수의 전역적 극소점을 찾는 것을 목적으로 함
- 극소점은 Gradient가 0인 점에서 발견되지만, 0의 Gradient(=saddle point)가 항상 최적성을 의미하는 것은 아니다.