Task는 두 가지 종류가 있다.
- Episodic Tasks
- Continuous Task
Episodic Tasks
이는 끝이 있는 Task들을 말한다. 즉 Terminal State가 있는 Task들로 이루어진다.
예를 들어, 체스와 같은 끝이 있는 게임 혹은 목표에 도달하면 끝나는 Task가 해당한다.
Episodic Tasks는 분리된 여러 Episode가 모여서 이루어진다.
표기는 기존과 조금 달라진다.
i번째 episode의 시각 t에서의 State는 Action은 Reward는 Policy는 로 표기한다.
하지만 대부분 i를 생략하고 표기한다.
Continue reading
Policy는 정책으로 Agent가 어떤 행동을 선택하는 지를 결정하는 전략이다.
Policy는 로 표기한다.
일반적으로 Deterministic한 Policy는 아래와 같이 표기하며,
어떤 State에서 Agent가 선택하는 행동을 출력한다.
만약 Stochastic한 Policy는 아래와 같이 어떤 State에서 어떤 Action이 선택될 확률을 아래와 같이 표기한다.
결국, action이 선택될 확률을 모두 더하면 1이 된다.
Value Function + Policy
이전 포스트에서 Value Function에 대해 설명했다. 하지만 Value Function은 어떤 Policy를 선택하는 지에 따라 달라지게 된다. 따라서 Value function 표기를 아래와 같이 한다.
State-value Function
Action-value Function
Optimal Policy
모든 Policy는 항상 한개 이상의 Optimal Policy를 가진다. Optimal Policy는 모든 구간에 대해서 어떤 Policy보다 Value를 높게 가지는 Policy이다.
Optimal Policy는
또는 *로 표기한다.
따라서 Optimal Policy의 Value Function 표기와 정의는 아래와 같다.
State-value Function
Action-value Function
Continue reading
Value Function
보상을 최대화 하기 위해 Agent는 행동을 선택할 때,
행동 혹은 상태에 대한 보상 기댓값을 계산해야 한다.
따라서 value function을 정의하고 계산 및 update하여 최선의 선택을 고르게 된다.
Continue reading