혁펜하임님의 트이는 강화학습을 보고 학습 중 입니다. Optimal Policy State Value function을 Maximize하는 policy V(s_t) \triangleq \int G_t P(a_t...a_{\infty})da_t:a_{\infty}을 최대화하는 P(a_t,s_t). = \int Q(s_t,a_t)p(a_t|s_t)da_t 현재의 optimal policy를 구하는 게 목적, 미래의 optimal policy가 주어져 있다고 가정. P^*(a_t|s_t) = \underset{p(a_{t+1}|s_{t+1})}{argmax} \int Q^*(s_t,a_t)da_t P^* : 현재 상태에서의 optimal policy 즉, 미래의 Q를 최대화하는 ac..