[RL] 12. Monte Carlo Method

27 Jun 2021 in Reinforcement Learning

Monte Carlo Method

몬테카를로 방법(Monte Carlo method)은 난수를 이용하여 함수의 값을 확률적으로 계산하는 알고리즘을 부르는 용어이다. 수학이나 물리학 등에 자주 사용되며, 계산하려는 값이 닫힌 형식으로 표현되지 않거나 복잡한 경우에 근사적으로 계산할 때 사용된다. - 위키피디아(몬테카를로 방법)

[RL] 11. Dynamic Programming

18 Jun 2021 in Reinforcement Learning

Dynamic Programming

DP는 환경 모델이 완벽하게 주어졌을 때, 최적정책을 계산하기 위한 방법이다.
고전적인 DP는 완벽한 모델과 많은 계산량이 필요하기 때문에 활용되진 않지만,
이론적으로 굉장히 중요한 개념이다.

Policy Iteration

이 방법은

Policy Evaluation(정책 평가)
Policy Improvement(정책 향상) 두 가지 방법을 반복하며 이루어 진다. 이걸 정책 반복(Policy Iteration)이라 한다.
첫 번째로 현재 정책을 평가한 후에, 평가로 얻은 Value function으로 정책 향상을 하게 된다.

Policy Evaluation

정책 평가는 현재 Policy를 이용하여 Value function을 구하는 것이다. 이전에 말했던 것 처럼 value function 계산은 아래와 같다.
$v_{\pi} = \sum_{a}\pi(a|s)\sum_{s'}\sum_{r}p(s',r|s,a)[r+\gamma v_{\pi}(s')]$

[RL] 10. Bellman Equation

17 Jun 2021 in Reinforcement Learning

State-value Bellman Equation

이전의 내용을 정리하면 State Value Function의 정의는 아래와 같다.

$v_{\pi}(s) \doteq E_{\pi}[G_{t}|S_{t}=s]$

이 때 4. Task 종류에서 말했던 내용 처럼

$G_{t} \doteq \sum_{k=t+1}^{T}\gamma^{k-t-1}R_{k}$ 이므로, G_t 는 아래와 같다.

$G_{t} = R_{t} + \gamma G_{t+1}$

결국 Value Function은 아래와 같다.

$E_{\pi}[R_{t+1}+\gamma G_{t+1}|S_{t}=s]$

이걸 풀어써보자!
먼저, 현재 State에서 일어날 수 있는 경우의 수(확률)를 모두 구해야 한다.
Policy에 따른 Action의 경우의 수, 다음 State(s’)에 대한 경우의 수, Reward에 대한 경우의 수
를 모두 계산해야 한다. 따라서 이 경우의 수를 고려한 식은 아래와 같이 나타낼 수 있다.

$\sum_{a}\pi(a|s)\sum_{s'}\sum_{r}^{}p(s',r|s,a) * (r + \gamma E_{\pi}[G_{t+1}|S_{t+1}=s'])$
r 뒤에 부분은 우리가 구하려던 값의 형식과 동일하다!
그러면 여기서 이 부분을 다시 Value Function으로 바꾸자

$\sum_{a}\pi(a|s)\sum_{s'}\sum_{r}^{}p(s',r|s,a) * (r + \gamma v_{\pi}(s'))$

Monte Carlo Method

Dynamic Programming

Policy Iteration

Policy Evaluation

State-value Bellman Equation

Pagination