[RL] 3. Policy

Policy는 정책으로 Agent가 어떤 행동을 선택하는 지를 결정하는 전략이다.
Policy는 로 표기한다.

일반적으로 Deterministic한 Policy는 아래와 같이 표기하며,
어떤 State에서 Agent가 선택하는 행동을 출력한다.

만약 Stochastic한 Policy는 아래와 같이 어떤 State에서 어떤 Action이 선택될 확률을 아래와 같이 표기한다.
결국, action이 선택될 확률을 모두 더하면 1이 된다.


Value Function + Policy

이전 포스트에서 Value Function에 대해 설명했다. 하지만 Value Function은 어떤 Policy를 선택하는 지에 따라 달라지게 된다. 따라서 Value function 표기를 아래와 같이 한다.
State-value Function

Action-value Function


Optimal Policy

모든 Policy는 항상 한개 이상의 Optimal Policy를 가진다. Optimal Policy는 모든 구간에 대해서 어떤 Policy보다 Value를 높게 가지는 Policy이다.
Optimal Policy는
또는 *로 표기한다.

따라서 Optimal Policy의 Value Function 표기와 정의는 아래와 같다.

State-value Function

Action-value Function




© 2020.12. by SungJae Yu

Powered by S.J Yu