혁펜하임님의 트이는 강화학습을 보고 학습 중 입니다. Optimal Policy State Value function을 Maximize하는 policy V(st)≜∫GtP(at...a∞)dat:a∞을 최대화하는 P(at,st). =∫Q(st,at)p(at|st)dat 현재의 optimal policy를 구하는 게 목적, 미래의 optimal policy가 주어져 있다고 가정. P∗(at|st)=argmaxp(at+1|st+1)∫Q∗(st,at)dat P∗ : 현재 상태에서의 optimal policy 즉, 미래의 Q를 최대화하는 ac..