[RL] 10. Bellman Equation
State-value Bellman Equation
이전의 내용을 정리하면 State Value Function의 정의는 아래와 같다.
이 때 4. Task 종류에서 말했던 내용 처럼
이므로, G_t 는 아래와 같다.
결국 Value Function은 아래와 같다.
이걸 풀어써보자!
먼저, 현재 State에서 일어날 수 있는 경우의 수(확률)를 모두 구해야 한다.
Policy에 따른 Action의 경우의 수, 다음 State(s’)에 대한 경우의 수, Reward에 대한 경우의 수
를 모두 계산해야 한다. 따라서 이 경우의 수를 고려한 식은 아래와 같이 나타낼 수 있다.
r 뒤에 부분은 우리가 구하려던 값의 형식과 동일하다!
그러면 여기서 이 부분을 다시 Value Function으로 바꾸자
이렇게 우리는 t+1값을 이용해서 t의 State-value 값을 구할 수 있다.
Action-value Bellman Equation
action의 value function의 정의는 아래와 같다.
State-value와 달리 action에 대한 경우의 수를 고려할 필요가 없으므로, 아래와 같다.
여기서 State-value가 존재하므로 이를 똑같이 action-value로 바꾸면,
Expectation을 action-value로 변경하면 결과적으로 아래와 같다.
이렇게 우리는 t+1값을 이용해서 t의 action-value 값을 구할 수 있다.