Processing math: 100%

AI/ReinforceLearning 2

[강화학습] 2주차 3강 ~ 4강

혁펜하임님의 트이는 강화학습을 보고 학습 중 입니다. Optimal Policy State Value function을 Maximize하는 policy V(st)GtP(at...a)dat:a을 최대화하는 P(at,st). =Q(st,at)p(at|st)dat 현재의 optimal policy를 구하는 게 목적, 미래의 optimal policy가 주어져 있다고 가정. P(at|st)=argmaxp(at+1|st+1)Q(st,at)dat P : 현재 상태에서의 optimal policy 즉, 미래의 Q를 최대화하는 ac..

[강화학습] 1주차 Q-learning기초,MDP

혁펜하임님의 트이는 강화학습을 보고 학습 중입니다. 강화학습이란? Machine Learning의 일종. Deep Learning과는 달리 연속된 액션을 구해야할 때 사용 Deep Learning은 한가지의 의사결정을 함 Action, Reward State로 구성되어 있음. Q-Learning이란? Greedy Action을 하며 Reward가 가장 큰 경로를 찾는 과정 Greedy Action : Reward가 큰 쪽으로 Action을 하는 것 problem : 한번 경로를 찾고나면 그 경로가 최적이 아니더라도 그 경로로만 이동함 Explation과 Expolitation의 비율을 조정해 최적의 경로를 찾도록 함 Explation(탐험) : Q값에 상관없이 랜덤으로 이동하여 새로운 경로를 찾아 나서도..

1