[RL] Markov Decision Process(MDP)

知/job지식

[RL] Markov Decision Process(MDP)

콰트로로켓단 2024. 5. 30. 08:00

개요

MDP는 S(state space), A(action space), P(transition probability), R(reward function), $\gamma$ (Discount factor) 묶음이 매 상태마다 Markov property를 가질 때로 정의한다.

어떤 문제를 해결하기 위해 사람이 문제를 정의하는 방법으로 MDP를 통해 S,A,R, $\gamma$ 또는 P 를 정의함으로 복잡한 문제를 해결할 수 있다.

MDP의 주요 용어와 Model-based와 Model-free의 차이를 간단하게 알아보자.

주요 용어

S : 상태 공간(State space)

사람이 정의한 상태들의 집합
각 상태는 미래가 과거의 영향을 받지 않기 위해(Markov property) 정의되어야 한다.

A : 행동 공간(Action Space)

에이전트가 각 상태에서 할 수 있는 모든 행동의 집합

P : 상태 전이 확률 $P(s' | s, a)$

상태 s에서 행동 a을 취했을 때 다음 상태 s'으로 전이될 확률

R : 보상 함수

3 가지로 표현될 수 있다.
$R(s), R_s$ : 상태 s에서 주어지는 보상 또는 벌로 행동과 무관
$R(s,a), R^a_s$ : 상태 s에서 행동 a을 했을 때 보상 또는 벌
$R(s'|s,a), R^a_{ss'}$ : 상태 s에서 행동 a를 했을 때 s' 상태로 전이될 때 나오는 보상 또는 벌

$\gamma$ : 할인 요소(Discount factor)

미래 보상의 가치를 현재가치로 나타내는 방법으로 0~1사이의 값을 사용
예 :현 시점 t에서 미래 보상의 합을 $G_t$ 라고 할 때 $G_t = R_t +\gamma R_{t+1} + \gamma ^2 R_{t+2}...$

Model-Based Vs Model-Free

여기서 모델은 환경에 대한 지식으로 상태전이확률 즉 P를 알고 있으면 Model-based 모르면 Model-free라고 한다.

하지만 사전에 모르고 있어도 인공지능의 모델의 의미로 모델을 학습하여 상태전이 확률을 추정하거나 아니면 샘플링하여 학습하는 것도 Model-Based이다. 그 예로 알파고가 있다.

Model-free는 상태전이 확률을 모른다 가정하고 보상에 대해 최대화하기 위해 모델링 된다. 그 예로 Q-Learning이 있다.

상태전이 확률을 모르면 행동 후 다음 상태에 대해 알 수가 없기에 환경과 직접적으로 상호작용이 되어야 한다.

예로 벽돌부수기 같은 게임을 생각하면 게임의 진행도를 상태전이 확률로 나타내기 어렵다는 것을 느낄 수 있다.

왜 필요해?

MDP는 강화 학습의 핵심 개념이며, 이를 이해하는 것은 강화 학습 문제를 정의하고 해결하는 데 필수적이다. MDP를 통해 강화 학습 알고리즘의 작동 원리, 설계, 성능 분석, 확장 가능성을 깊이 있게 이해할 수 있으며, 이를 바탕으로 다양한 강화 학습 문제에 효과적으로 대응할 수 있다.

728x90

'知 > job지식' 카테고리의 다른 글

[AI]인공지능은 어떻게 학습하나 (2)	2024.06.02
[RL] Value functions (0)	2024.05.31
[Autocad] 외부참조 설정값이 원래대로 돌아갈 때 (0)	2024.05.29
[Autocad] 외부참조(xref) 사용법 (0)	2024.05.25
[Autocad] 레이어 강제 삭제하기 (0)	2024.05.25

현재글[RL] Markov Decision Process(MDP)

대답해드리는게 인지상정 물으신다면 대답해드리는게 인지상정 *아는거 아무거나 다 적습니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

대답해드리는게 인지상정

[RL] Markov Decision Process(MDP)

개요

주요 용어

Model-Based Vs Model-Free

왜 필요해?

'知 > job지식' 카테고리의 다른 글

'知/job지식'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[RL] Markov Decision Process(MDP)

개요

주요 용어

Model-Based Vs Model-Free

왜 필요해?

'知 > job지식' 카테고리의 다른 글

'知/job지식'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역