개요
MDP는 S(state space), A(action space), P(transition probability), R(reward function), $\gamma$ (Discount factor) 묶음이 매 상태마다 Markov property를 가질 때로 정의한다.
어떤 문제를 해결하기 위해 사람이 문제를 정의하는 방법으로 MDP를 통해 S,A,R, $\gamma$ 또는 P 를 정의함으로 복잡한 문제를 해결할 수 있다.
MDP의 주요 용어와 Model-based와 Model-free의 차이를 간단하게 알아보자.
주요 용어
S : 상태 공간(State space)
- 사람이 정의한 상태들의 집합
- 각 상태는 미래가 과거의 영향을 받지 않기 위해(Markov property) 정의되어야 한다.
A : 행동 공간(Action Space)
- 에이전트가 각 상태에서 할 수 있는 모든 행동의 집합
P : 상태 전이 확률 $P(s' | s, a)$
- 상태 s에서 행동 a을 취했을 때 다음 상태 s'으로 전이될 확률
R : 보상 함수
- 3 가지로 표현될 수 있다.
- $R(s), R_s$ : 상태 s에서 주어지는 보상 또는 벌로 행동과 무관
- $R(s,a), R^a_s$ : 상태 s에서 행동 a을 했을 때 보상 또는 벌
- $R(s'|s,a), R^a_{ss'}$ : 상태 s에서 행동 a를 했을 때 s' 상태로 전이될 때 나오는 보상 또는 벌
$\gamma$ : 할인 요소(Discount factor)
- 미래 보상의 가치를 현재가치로 나타내는 방법으로 0~1사이의 값을 사용
- 예 :현 시점 t에서 미래 보상의 합을 $G_t$라고 할 때 $G_t = R_t +\gamma R_{t+1} + \gamma ^2 R_{t+2}...$
Model-Based Vs Model-Free
여기서 모델은 환경에 대한 지식으로 상태전이확률 즉 P를 알고 있으면 Model-based 모르면 Model-free라고 한다.
하지만 사전에 모르고 있어도 인공지능의 모델의 의미로 모델을 학습하여 상태전이 확률을 추정하거나 아니면 샘플링하여 학습하는 것도 Model-Based이다. 그 예로 알파고가 있다.
Model-free는 상태전이 확률을 모른다 가정하고 보상에 대해 최대화하기 위해 모델링 된다. 그 예로 Q-Learning이 있다.
상태전이 확률을 모르면 행동 후 다음 상태에 대해 알 수가 없기에 환경과 직접적으로 상호작용이 되어야 한다.
예로 벽돌부수기 같은 게임을 생각하면 게임의 진행도를 상태전이 확률로 나타내기 어렵다는 것을 느낄 수 있다.
왜 필요해?
MDP는 강화 학습의 핵심 개념이며, 이를 이해하는 것은 강화 학습 문제를 정의하고 해결하는 데 필수적이다. MDP를 통해 강화 학습 알고리즘의 작동 원리, 설계, 성능 분석, 확장 가능성을 깊이 있게 이해할 수 있으며, 이를 바탕으로 다양한 강화 학습 문제에 효과적으로 대응할 수 있다.
'知 > job지식' 카테고리의 다른 글
[AI]인공지능은 어떻게 학습하나 (1) | 2024.06.02 |
---|---|
[RL] Value functions (0) | 2024.05.31 |
[Autocad] 외부참조 설정값이 원래대로 돌아갈 때 (0) | 2024.05.29 |
[Autocad] 외부참조(xref) 사용법 (0) | 2024.05.25 |
[Autocad] 레이어 강제 삭제하기 (0) | 2024.05.25 |