AI/ReinforceLearning

[강화학습] 1주차 Q-learning기초,MDP

리네엔 2022. 7. 5. 23:41
혁펜하임님의 트이는 강화학습을 보고 학습 중입니다.

강화학습이란?

  • Machine Learning의 일종.
  • Deep Learning과는 달리 연속된 액션을 구해야할 때 사용
    • Deep Learning은 한가지의 의사결정을 함
  • Action, Reward State로 구성되어 있음.

Q-Learning이란?

  • Greedy Action을 하며 Reward가 가장 큰 경로를 찾는 과정
    • Greedy Action : Reward가 큰 쪽으로 Action을 하는 것
  • problem : 한번 경로를 찾고나면 그 경로가 최적이 아니더라도 그 경로로만 이동함
    • Explation과 Expolitation의 비율을 조정해 최적의 경로를 찾도록 함
      • Explation(탐험) : Q값에 상관없이 랜덤으로 이동하여 새로운 경로를 찾아 나서도록 함
      • Expolitation : Q값에 따라 움직이도록 함
    • (Decaying)$\epsilon$ -Greed : (점점 $\epsilon$값을 줄여나가며) $\epsilon$의 확률로 랜덤하게 이동하는 것
  • Q-Update
    $$Q(S_t,a_t)\leftarrow(1-\alpha)Q(s_t,a_t) + \alpha(R_t + \gamma max(Q(S_{t+1},a_{t+1}))) \quad
    0<\alpha<1$$

Marcov Decision Process

  • Action을 결정하는 과정.
  • 현상태에는 이전상태와 이전상태의 결정이 포함되어 있음.
  1. $P(a_1|S_0,a_0,S_1) = P(a_1|S_1)\rightarrow$ Policy : Stat에서 어떤 action을 할지에 대한 분포
  2. $P(S_2|S_0,a_0,S_1,a_1) = P(S_2|S_1,a_1)\rightarrow$ Transition Probability
    • $S_1$에는 $S_0$와 $a_0$가 포함되어 있음.

강화학습의 Goal

  • 기대되는 Return의 최대화 Maximize Expected Return
  • Return : $G_t = R_t + \gamma R_t + \gamma^2 R_t+...$
  • Expected Return을 표현하기 위한 수단
    • State value function : 지금부터 기대되는 Return, 현재 State의 가치
    • Action value function : 지금 행동으로 부터 기대되는 Return. 행동에 대한 가치
  • Optimal Policy : State value function을 최대화 하는 policy

Bellman Equation

  1. state value function
    $$V(s_t)\triangleq \int G_tp(a_t,s_{t+1},a_{t+1}...|s_t)da_t:a_{\infty}$$
    • $\int_{a_t}Q(s_t,a_t)p(a_t|s_t)da_t$ => V : Q를 action에 대해 평균을 취한 것으로 볼 수 있음
    • $\int (R_t+\gamma V(S_{t+1}))p(a_t,s_{t+1}|S_t)da_ts_{t+1}$
      • $p(a_t,s_{t+1}|s_t) = \overbrace{p(s_{t+1}|s_t,a_t)}^{transition}\overbrace{p(a_t|s_t)}^{policy}$
  2. action value function
    $$Q(s_t,a_t) \triangleq \int G_tp(s_{t+1},a_{t+1},s_{t+2},a_{t+2},...|s_t,a_t)ds_{t+1}:a_{\infty}$$
    • $\int(R_t+\gamma V(s_{t+1}))p(s_{t+1}|s_t,a_t)ds_{t+1}$
    • $\int(R_t+\gamma Q(S_{t+1}))p(s_{t+1},a_{t+1}|s_t,a_t)$
      • $p(s_{t+1},a_{t+1}|s_t,a_t) = \overbrace{p(a_{t+1}|s_{t+1})}^{policy}\overbrace{p(s_{t+1}|s_t,a_t)}^{transition}$
  • state value fucntion과 action function은 t상태를 t+1상태로 표현할 수 있음

'AI > ReinforceLearning' 카테고리의 다른 글

[강화학습] 2주차 3강 ~ 4강  (0) 2022.07.25