知/job지식

[RL] Value functions

콰트로로켓단 2024. 5. 31. 14:19
반응형

개요

강화학습(RL)에서 가치 함수(value function)는 에이전트가 특정 상태나 상태-행동 쌍에서 기대할 수 있는 보상의 총합을 나타내는 중요한 개념이다. 가치 함수는 에이전트가 환경에서 최적의 행동을 선택하도록 도와주며, 다양한 종류와 의미를 가지고 있다. 이 글에서는 강화학습에서 사용되는 가치 함수의 종류와 그 의미를 자세히 살펴보겠다.

 

상태 가치 함수 (State-Value function, $V(s)$)

특정 상태 s에서 시작하여 어떠한 정책 $\pi$를 따를 때 기대되는 미래 보상의 총합을 나타낸다. 다음과 같이 표현된다. 

$$ V_{\pi}(s) = \mathbb{E_{\pi}}\left [\sum_{t=0}^{\infty}\gamma^tR_t|s_0=s\right ]$$

 

여기서 $R_t$는 시간 t에서 보상, $\gamma$는 할인율이다. 상태 가치 함수는 현재 상태가 얼마나 좋은지를 평가할 수 있다. 바둑을 예로 바둑판의 상태를 보고 게임이 끝날 때까지 이길 가능성으로 보면 된다.

 

행동 가치 함수 (Action-Value function, $Q(s, a)$)

행동 가치 함수는 에이전트가 정책 $\pi$를 따르며 특정 상태 s에서 어떤 행동 a를 할 때 기대할 수 있는 미래 보상의 총합을 나타낸다.

다음과 같이 표현된다.

$$Q_{\pi}(s,a) = \mathbb{E_{\pi}}\left [\sum_{t=0}^{\infty}\gamma^tR_t|s_0=s, a_0 =a\right ]$$

어떤 행동을 할지 선택할 때 용이하다. 현 상태에서 각 행동의 가치를 비교하고 최적의 행동을 선택하는 데 도움이 된다.

바둑을 예로 바둑판에서 돌을 놓을 때 플레이어가 유리할 지 평가하는데 사용한다. 

 

상태 가치 함수는 행동가치함수로 표현 하면 다음과 같다.

$$V_{\pi}(s) = \sum_{}{}_a \pi(a|s)Q_{\pi}(s,a)$$

행동가치 함수는 상태s에서 특정 행동을 한 이후로 그 이후 모든 미래 보상의 총합의 기대값 이므로 상태s일 때 a를 할 확률인 정책 $\pi$는 $\pi(a|s)$ 같이 표현되는데 상태 s에서 모든 행동에 대해 정책과 행동가치함수의 곱을 더하면 상태 가치 함수가 된다.

 

Advantage function

$A_{\pi}(s,a) =q_{\pi}(s,a)-v_{\pi}(s)$로 표현되고, 상태 가치를 빼서 양수 인 것은 액션 a는 평균 보다 좋은 액션인 것을 파악 할 수 있다. 개인적으로 Normalization 효과로 인식한다.

 

728x90
반응형