혁펜하임님의 트이는 강화학습을 보고 학습 중입니다. 강화학습이란? Machine Learning의 일종. Deep Learning과는 달리 연속된 액션을 구해야할 때 사용 Deep Learning은 한가지의 의사결정을 함 Action, Reward State로 구성되어 있음. Q-Learning이란? Greedy Action을 하며 Reward가 가장 큰 경로를 찾는 과정 Greedy Action : Reward가 큰 쪽으로 Action을 하는 것 problem : 한번 경로를 찾고나면 그 경로가 최적이 아니더라도 그 경로로만 이동함 Explation과 Expolitation의 비율을 조정해 최적의 경로를 찾도록 함 Explation(탐험) : Q값에 상관없이 랜덤으로 이동하여 새로운 경로를 찾아 나서도..