쑥밭

  • 홈
  • 태그
  • 방명록

AI/ReinforceLearning 2

[강화학습] 2주차 3강 ~ 4강

혁펜하임님의 트이는 강화학습을 보고 학습 중 입니다. Optimal Policy State Value function을 Maximize하는 policy $ V(s_t) \triangleq \int G_t P(a_t...a_{\infty})da_t:a_{\infty}$을 최대화하는 $P(a_t,s_t)$. $= \int Q(s_t,a_t)p(a_t|s_t)da_t$ 현재의 optimal policy를 구하는 게 목적, 미래의 optimal policy가 주어져 있다고 가정. $ P^*(a_t|s_t) = \underset{p(a_{t+1}|s_{t+1})}{argmax} \int Q^*(s_t,a_t)da_t $ $ P^* $ : 현재 상태에서의 optimal policy 즉, 미래의 Q를 최대화하는 ac..

AI/ReinforceLearning 2022.07.25

[강화학습] 1주차 Q-learning기초,MDP

혁펜하임님의 트이는 강화학습을 보고 학습 중입니다. 강화학습이란? Machine Learning의 일종. Deep Learning과는 달리 연속된 액션을 구해야할 때 사용 Deep Learning은 한가지의 의사결정을 함 Action, Reward State로 구성되어 있음. Q-Learning이란? Greedy Action을 하며 Reward가 가장 큰 경로를 찾는 과정 Greedy Action : Reward가 큰 쪽으로 Action을 하는 것 problem : 한번 경로를 찾고나면 그 경로가 최적이 아니더라도 그 경로로만 이동함 Explation과 Expolitation의 비율을 조정해 최적의 경로를 찾도록 함 Explation(탐험) : Q값에 상관없이 랜덤으로 이동하여 새로운 경로를 찾아 나서도..

AI/ReinforceLearning 2022.07.05
1
더보기
프로필사진

공지사항

  • 분류 전체보기 (110)
    • Language (23)
      • C# (20)
      • C++ (3)
    • Unity&C# (11)
      • VR (0)
      • Unity (17)
    • CS (5)
      • DesignPattern (15)
    • Markdown (2)
      • Markdown (0)
      • LaTex (0)
    • Develop_Log (10)
      • P_SA (0)
    • AI (18)
      • CV (2)
      • ReinforceLearning (2)
      • Grapics (1)
      • MachineLearning (2)
      • Anaconda&python (9)
    • AR_VR_Lab (3)
      • Paper_Review (3)

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

Copyright © Kakao Corp. All rights reserved.

티스토리툴바