[RL] 3. Policy

Policy는 정책으로 Agent가 어떤 행동을 선택하는 지를 결정하는 전략이다.
Policy는 $\pi$ 로 표기한다.

일반적으로 Deterministic한 Policy는 아래와 같이 표기하며,
어떤 State에서 Agent가 선택하는 행동을 출력한다.
$\pi(s) = a$

만약 Stochastic한 Policy는 아래와 같이 어떤 State에서 어떤 Action이 선택될 확률을 아래와 같이 표기한다.
$\pi(a | s)$ 결국, action이 선택될 확률을 모두 더하면 1이 된다.
$\sum_{a\in A}^{}\pi(a | s) = 1$

Value Function + Policy

이전 포스트에서 Value Function에 대해 설명했다. 하지만 Value Function은 어떤 Policy를 선택하는 지에 따라 달라지게 된다. 따라서 Value function 표기를 아래와 같이 한다.
State-value Function
$v_{\pi}(s) = E_{\pi}[G_{t}\ |\ S_{t}=s]$