AI/ReinforceLearning

[강화학습] 1주차 Q-learning기초,MDP

리네엔 2022. 7. 5. 23:41

강화학습이란?

Greedy Action을 하며 Reward가 가장 큰 경로를 찾는 과정
- Greedy Action : Reward가 큰 쪽으로 Action을 하는 것

problem : 한번 경로를 찾고나면 그 경로가 최적이 아니더라도 그 경로로만 이동함
- Explation과 Expolitation의 비율을 조정해 최적의 경로를 찾도록 함
  - Explation(탐험) : Q값에 상관없이 랜덤으로 이동하여 새로운 경로를 찾아 나서도록 함
  - Expolitation : Q값에 따라 움직이도록 함
- (Decaying)$\epsilon$ -Greed : (점점 $\epsilon$값을 줄여나가며) $\epsilon$의 확률로 랜덤하게 이동하는 것

Q-Update
$$Q(S_t,a_t)\leftarrow(1-\alpha)Q(s_t,a_t) + \alpha(R_t + \gamma max(Q(S_{t+1},a_{t+1}))) \quad
0<\alpha<1$$

$P(a_1|S_0,a_0,S_1) = P(a_1|S_1)\rightarrow$ Policy : Stat에서 어떤 action을 할지에 대한 분포
$P(S_2|S_0,a_0,S_1,a_1) = P(S_2|S_1,a_1)\rightarrow$ Transition Probability
- $S_1$에는 $S_0$와 $a_0$가 포함되어 있음.

기대되는 Return의 최대화 Maximize Expected Return
Return : $G_t = R_t + \gamma R_t + \gamma^2 R_t+...$
Expected Return을 표현하기 위한 수단
- State value function : 지금부터 기대되는 Return, 현재 State의 가치
- Action value function : 지금 행동으로 부터 기대되는 Return. 행동에 대한 가치
Optimal Policy : State value function을 최대화 하는 policy

state value function
$$V(s_t)\triangleq \int G_tp(a_t,s_{t+1},a_{t+1}...|s_t)da_t:a_{\infty}$$
- $\int_{a_t}Q(s_t,a_t)p(a_t|s_t)da_t$ => V : Q를 action에 대해 평균을 취한 것으로 볼 수 있음
- $\int (R_t+\gamma V(S_{t+1}))p(a_t,s_{t+1}|S_t)da_ts_{t+1}$
  - $p(a_t,s_{t+1}|s_t) = \overbrace{p(s_{t+1}|s_t,a_t)}^{transition}\overbrace{p(a_t|s_t)}^{policy}$
action value function
$$Q(s_t,a_t) \triangleq \int G_tp(s_{t+1},a_{t+1},s_{t+2},a_{t+2},...|s_t,a_t)ds_{t+1}:a_{\infty}$$
- $\int(R_t+\gamma V(s_{t+1}))p(s_{t+1}|s_t,a_t)ds_{t+1}$
- $\int(R_t+\gamma Q(S_{t+1}))p(s_{t+1},a_{t+1}|s_t,a_t)$
  - $p(s_{t+1},a_{t+1}|s_t,a_t) = \overbrace{p(a_{t+1}|s_{t+1})}^{policy}\overbrace{p(s_{t+1}|s_t,a_t)}^{transition}$

[강화학습] 2주차 3강 ~ 4강 (0)	2022.07.25