개요MDP는 S(state space), A(action space), P(transition probability), R(reward function), $\gamma$ (Discount factor) 묶음이 매 상태마다 Markov property를 가질 때로 정의한다. 어떤 문제를 해결하기 위해 사람이 문제를 정의하는 방법으로 MDP를 통해 S,A,R, $\gamma$ 또는 P 를 정의함으로 복잡한 문제를 해결할 수 있다. MDP의 주요 용어와 Model-based와 Model-free의 차이를 간단하게 알아보자. 주요 용어S : 상태 공간(State space)사람이 정의한 상태들의 집합각 상태는 미래가 과거의 영향을 받지 않기 위해(Markov property) 정의되어야 한다.A : 행동 공간..