[RL] 2. Value Function
Value Function
보상을 최대화 하기 위해 Agent는 행동을 선택할 때,
행동 혹은 상태에 대한 보상 기댓값을 계산해야 한다.
따라서 value function을 정의하고 계산 및 update하여 최선의 선택을 고르게 된다.
이 때 value function은 두 종류가 있다. 어떤 상태의 value function은 v(s)로 표기하고,
어떤 상태에서 어떤 행동에 대한 value function은 q(s, a)로 표기한다.
기본적인 value function의 값은 아래 식과 같다.
여기서 v(s)는 s에 모든 행동에 대한 q(s, a)의 합이라고 할 수 있으므로,
이다.
하지만 상태와 상관없이 행동에 관해서만 reward를 고려할 경우에는 로 표기한다.
여기서 는 현재 t에서의 이득으로, 이후 시간(t+1, …., T)의 Reward를 가산한 값이다.
하지만 이 부분의 계산은 “4. Task 종류”를 참고하기 바란다.