[RL] 12. Monte Carlo Method
Monte Carlo Method
몬테카를로 방법(Monte Carlo method)은 난수를 이용하여 함수의 값을 확률적으로 계산하는 알고리즘을 부르는 용어이다. 수학이나 물리학 등에 자주 사용되며, 계산하려는 값이 닫힌 형식으로 표현되지 않거나 복잡한 경우에 근사적으로 계산할 때 사용된다. - 위키피디아(몬테카를로 방법)
몬테카를로 방법(Monte Carlo method)은 난수를 이용하여 함수의 값을 확률적으로 계산하는 알고리즘을 부르는 용어이다. 수학이나 물리학 등에 자주 사용되며, 계산하려는 값이 닫힌 형식으로 표현되지 않거나 복잡한 경우에 근사적으로 계산할 때 사용된다. - 위키피디아(몬테카를로 방법)
DP는 환경 모델이 완벽하게 주어졌을 때, 최적정책을 계산하기 위한 방법이다.
고전적인 DP는 완벽한 모델과 많은 계산량이 필요하기 때문에 활용되진 않지만,
이론적으로 굉장히 중요한 개념이다.
이 방법은
정책 평가는 현재 Policy를 이용하여 Value function을 구하는 것이다. 이전에 말했던 것 처럼 value function 계산은 아래와 같다.
이전의 내용을 정리하면 State Value Function의 정의는 아래와 같다.
이 때 4. Task 종류에서 말했던 내용 처럼
이므로, G_t 는 아래와 같다.
결국 Value Function은 아래와 같다.
이걸 풀어써보자!
먼저, 현재 State에서 일어날 수 있는 경우의 수(확률)를 모두 구해야 한다.
Policy에 따른 Action의 경우의 수, 다음 State(s’)에 대한 경우의 수, Reward에 대한 경우의 수
를 모두 계산해야 한다. 따라서 이 경우의 수를 고려한 식은 아래와 같이 나타낼 수 있다.
r 뒤에 부분은 우리가 구하려던 값의 형식과 동일하다!
그러면 여기서 이 부분을 다시 Value Function으로 바꾸자