혁펜하임님의 트이는 강화학습을 보고 학습 중 입니다. Optimal Policy State Value function을 Maximize하는 policy $ V(s_t) \triangleq \int G_t P(a_t...a_{\infty})da_t:a_{\infty}$을 최대화하는 $P(a_t,s_t)$. $= \int Q(s_t,a_t)p(a_t|s_t)da_t$ 현재의 optimal policy를 구하는 게 목적, 미래의 optimal policy가 주어져 있다고 가정. $ P^*(a_t|s_t) = \underset{p(a_{t+1}|s_{t+1})}{argmax} \int Q^*(s_t,a_t)da_t $ $ P^* $ : 현재 상태에서의 optimal policy 즉, 미래의 Q를 최대화하는 ac..