知/job지식

[RL] Markov Decision Process(MDP)

콰트로로켓단 2024. 5. 30. 08:00
반응형

개요

MDP는 S(state space), A(action space), P(transition probability), R(reward function), $\gamma$ (Discount factor) 묶음이 매 상태마다 Markov property를 가질 때로 정의한다. 

어떤 문제를 해결하기 위해 사람이 문제를 정의하는 방법으로 MDP를 통해 S,A,R, $\gamma$ 또는 P 를 정의함으로 복잡한 문제를 해결할 수 있다. 

MDP의 주요 용어와 Model-based와 Model-free의 차이를 간단하게 알아보자.

 

주요 용어

S : 상태 공간(State space)

  • 사람이 정의한 상태들의 집합
  • 각 상태는 미래가 과거의 영향을 받지 않기 위해(Markov property) 정의되어야 한다.

A : 행동 공간(Action Space)

  • 에이전트가 각 상태에서 할 수 있는 모든 행동의 집합

P : 상태 전이 확률 $P(s' | s, a)$

  • 상태 s에서 행동 a을 취했을 때 다음 상태 s'으로 전이될 확률 

R : 보상 함수

  • 3 가지로 표현될 수 있다.
  • $R(s), R_s$ : 상태 s에서 주어지는 보상 또는 벌로 행동과 무관
  • $R(s,a), R^a_s$ : 상태 s에서 행동 a을 했을 때 보상 또는 벌
  • $R(s'|s,a), R^a_{ss'}$ : 상태 s에서 행동 a를 했을 때 s' 상태로 전이될 때 나오는 보상 또는 벌

$\gamma$ : 할인 요소(Discount factor)

  • 미래 보상의 가치를 현재가치로 나타내는 방법으로 0~1사이의 값을 사용
  • 예 :현 시점 t에서 미래 보상의 합을 $G_t$라고 할 때 $G_t = R_t +\gamma R_{t+1} + \gamma ^2 R_{t+2}...$ 

Model-Based Vs Model-Free

여기서 모델은 환경에 대한 지식으로 상태전이확률 즉 P를 알고 있으면 Model-based 모르면 Model-free라고 한다. 

하지만 사전에 모르고 있어도 인공지능의 모델의 의미로 모델을 학습하여 상태전이 확률을 추정하거나 아니면 샘플링하여 학습하는 것도 Model-Based이다. 그 예로 알파고가 있다.

 

Model-free는 상태전이 확률을 모른다 가정하고 보상에 대해 최대화하기 위해 모델링 된다. 그 예로 Q-Learning이 있다. 

상태전이 확률을 모르면 행동 후 다음 상태에 대해 알 수가 없기에 환경과 직접적으로 상호작용이 되어야 한다. 

예로 벽돌부수기 같은 게임을 생각하면 게임의 진행도를 상태전이 확률로 나타내기 어렵다는 것을 느낄 수 있다. 

 

왜 필요해?

MDP는 강화 학습의 핵심 개념이며, 이를 이해하는 것은 강화 학습 문제를 정의하고 해결하는 데 필수적이다. MDP를 통해 강화 학습 알고리즘의 작동 원리, 설계, 성능 분석, 확장 가능성을 깊이 있게 이해할 수 있으며, 이를 바탕으로 다양한 강화 학습 문제에 효과적으로 대응할 수 있다.  

 

 

 

728x90
반응형