[RL] 4. Task 종류(Episodic, Continuous)

09 Jun 2021 in Reinforcement Learning

Task는 두 가지 종류가 있다.

Episodic Tasks
Continuous Task

Episodic Tasks

이는 끝이 있는 Task들을 말한다. 즉 Terminal State가 있는 Task들로 이루어진다.
예를 들어, 체스와 같은 끝이 있는 게임 혹은 목표에 도달하면 끝나는 Task가 해당한다.
Episodic Tasks는 분리된 여러 Episode가 모여서 이루어진다.

표기는 기존과 조금 달라진다.
i번째 episode의 시각 t에서의 State는 $S_{t, i}$ Action은 $A_{t, i}$ Reward는 $R_{t, i}$ Policy는 $\pi_{t, i}$ 로 표기한다.
하지만 대부분 i를 생략하고 표기한다.

[RL] 3. Policy

09 Jun 2021 in Reinforcement Learning

Policy는 정책으로 Agent가 어떤 행동을 선택하는 지를 결정하는 전략이다.
Policy는 $\pi$ 로 표기한다.

일반적으로 Deterministic한 Policy는 아래와 같이 표기하며,
어떤 State에서 Agent가 선택하는 행동을 출력한다.
$\pi(s) = a$

만약 Stochastic한 Policy는 아래와 같이 어떤 State에서 어떤 Action이 선택될 확률을 아래와 같이 표기한다.
$\pi(a | s)$ 결국, action이 선택될 확률을 모두 더하면 1이 된다.
$\sum_{a\in A}^{}\pi(a | s) = 1$

Value Function + Policy

이전 포스트에서 Value Function에 대해 설명했다. 하지만 Value Function은 어떤 Policy를 선택하는 지에 따라 달라지게 된다. 따라서 Value function 표기를 아래와 같이 한다.
State-value Function
$v_{\pi}(s) = E_{\pi}[G_{t}\ |\ S_{t}=s]$