혁펜하임님의 트이는 강화학습을 보고 학습 중입니다.
강화학습이란?
- Machine Learning의 일종.
- Deep Learning과는 달리 연속된 액션을 구해야할 때 사용
- Deep Learning은 한가지의 의사결정을 함
- Action, Reward State로 구성되어 있음.
Q-Learning이란?
- Greedy Action을 하며 Reward가 가장 큰 경로를 찾는 과정
- Greedy Action : Reward가 큰 쪽으로 Action을 하는 것
- problem : 한번 경로를 찾고나면 그 경로가 최적이 아니더라도 그 경로로만 이동함
- Explation과 Expolitation의 비율을 조정해 최적의 경로를 찾도록 함
- Explation(탐험) : Q값에 상관없이 랜덤으로 이동하여 새로운 경로를 찾아 나서도록 함
- Expolitation : Q값에 따라 움직이도록 함
- (Decaying)$\epsilon$ -Greed : (점점 $\epsilon$값을 줄여나가며) $\epsilon$의 확률로 랜덤하게 이동하는 것
- Explation과 Expolitation의 비율을 조정해 최적의 경로를 찾도록 함
- Q-Update
$$Q(S_t,a_t)\leftarrow(1-\alpha)Q(s_t,a_t) + \alpha(R_t + \gamma max(Q(S_{t+1},a_{t+1}))) \quad
0<\alpha<1$$
Marcov Decision Process
- Action을 결정하는 과정.
- 현상태에는 이전상태와 이전상태의 결정이 포함되어 있음.
- $P(a_1|S_0,a_0,S_1) = P(a_1|S_1)\rightarrow$ Policy : Stat에서 어떤 action을 할지에 대한 분포
- $P(S_2|S_0,a_0,S_1,a_1) = P(S_2|S_1,a_1)\rightarrow$ Transition Probability
- $S_1$에는 $S_0$와 $a_0$가 포함되어 있음.
강화학습의 Goal
- 기대되는 Return의 최대화 Maximize Expected Return
- Return : $G_t = R_t + \gamma R_t + \gamma^2 R_t+...$
- Expected Return을 표현하기 위한 수단
- State value function : 지금부터 기대되는 Return, 현재 State의 가치
- Action value function : 지금 행동으로 부터 기대되는 Return. 행동에 대한 가치
- Optimal Policy : State value function을 최대화 하는 policy
Bellman Equation
- state value function
$$V(s_t)\triangleq \int G_tp(a_t,s_{t+1},a_{t+1}...|s_t)da_t:a_{\infty}$$- $\int_{a_t}Q(s_t,a_t)p(a_t|s_t)da_t$ => V : Q를 action에 대해 평균을 취한 것으로 볼 수 있음
- $\int (R_t+\gamma V(S_{t+1}))p(a_t,s_{t+1}|S_t)da_ts_{t+1}$
- $p(a_t,s_{t+1}|s_t) = \overbrace{p(s_{t+1}|s_t,a_t)}^{transition}\overbrace{p(a_t|s_t)}^{policy}$
- action value function
$$Q(s_t,a_t) \triangleq \int G_tp(s_{t+1},a_{t+1},s_{t+2},a_{t+2},...|s_t,a_t)ds_{t+1}:a_{\infty}$$- $\int(R_t+\gamma V(s_{t+1}))p(s_{t+1}|s_t,a_t)ds_{t+1}$
- $\int(R_t+\gamma Q(S_{t+1}))p(s_{t+1},a_{t+1}|s_t,a_t)$
- $p(s_{t+1},a_{t+1}|s_t,a_t) = \overbrace{p(a_{t+1}|s_{t+1})}^{policy}\overbrace{p(s_{t+1}|s_t,a_t)}^{transition}$
- state value fucntion과 action function은 t상태를 t+1상태로 표현할 수 있음
'AI > ReinforceLearning' 카테고리의 다른 글
[강화학습] 2주차 3강 ~ 4강 (0) | 2022.07.25 |
---|