개요
강화학습(RL)에서 가치 함수(value function)는 에이전트가 특정 상태나 상태-행동 쌍에서 기대할 수 있는 보상의 총합을 나타내는 중요한 개념이다. 가치 함수는 에이전트가 환경에서 최적의 행동을 선택하도록 도와주며, 다양한 종류와 의미를 가지고 있다. 이 글에서는 강화학습에서 사용되는 가치 함수의 종류와 그 의미를 자세히 살펴보겠다.
상태 가치 함수 (State-Value function, $V(s)$)
특정 상태 s에서 시작하여 어떠한 정책 $\pi$를 따를 때 기대되는 미래 보상의 총합을 나타낸다. 다음과 같이 표현된다.
$$ V_{\pi}(s) = \mathbb{E_{\pi}}\left [\sum_{t=0}^{\infty}\gamma^tR_t|s_0=s\right ]$$
여기서 $R_t$는 시간 t에서 보상, $\gamma$는 할인율이다. 상태 가치 함수는 현재 상태가 얼마나 좋은지를 평가할 수 있다. 바둑을 예로 바둑판의 상태를 보고 게임이 끝날 때까지 이길 가능성으로 보면 된다.
행동 가치 함수 (Action-Value function, $Q(s, a)$)
행동 가치 함수는 에이전트가 정책 $\pi$를 따르며 특정 상태 s에서 어떤 행동 a를 할 때 기대할 수 있는 미래 보상의 총합을 나타낸다.
다음과 같이 표현된다.
$$Q_{\pi}(s,a) = \mathbb{E_{\pi}}\left [\sum_{t=0}^{\infty}\gamma^tR_t|s_0=s, a_0 =a\right ]$$
어떤 행동을 할지 선택할 때 용이하다. 현 상태에서 각 행동의 가치를 비교하고 최적의 행동을 선택하는 데 도움이 된다.
바둑을 예로 바둑판에서 돌을 놓을 때 플레이어가 유리할 지 평가하는데 사용한다.
상태 가치 함수는 행동가치함수로 표현 하면 다음과 같다.
$$V_{\pi}(s) = \sum_{}{}_a \pi(a|s)Q_{\pi}(s,a)$$
행동가치 함수는 상태s에서 특정 행동을 한 이후로 그 이후 모든 미래 보상의 총합의 기대값 이므로 상태s일 때 a를 할 확률인 정책 $\pi$는 $\pi(a|s)$ 같이 표현되는데 상태 s에서 모든 행동에 대해 정책과 행동가치함수의 곱을 더하면 상태 가치 함수가 된다.
Advantage function
$A_{\pi}(s,a) =q_{\pi}(s,a)-v_{\pi}(s)$로 표현되고, 상태 가치를 빼서 양수 인 것은 액션 a는 평균 보다 좋은 액션인 것을 파악 할 수 있다. 개인적으로 Normalization 효과로 인식한다.
'知 > job지식' 카테고리의 다른 글
[Autocad] 외부참조(xref)-전체경로, 상대경로 차이 (0) | 2024.06.27 |
---|---|
[AI]인공지능은 어떻게 학습하나 (1) | 2024.06.02 |
[RL] Markov Decision Process(MDP) (0) | 2024.05.30 |
[Autocad] 외부참조 설정값이 원래대로 돌아갈 때 (0) | 2024.05.29 |
[Autocad] 외부참조(xref) 사용법 (0) | 2024.05.25 |