[RL] 9. Markov Decision Process &

Markov Decision Process(이하 MDP)는 행동이 즉각적인 보상에만 영향을 미치는 것이 아니고
이어지는 상황이나 상태에 영향을 미쳐 결국에는 미래의 보상에 영향을 준다.
따라서 MDP는 지연된 보상을 포함하며, 이 지연된 보상과 즉각적인 보상 사이에서 균형을 잡을 필요가 있다.

Agent-Environment Interface

MDP는 행위자 Agent와 환경 Environment 사이의 상호작용으로 진행된다.
어떤 행동을 통해 환경에 영향을 주고 그로인한 보상 및 새로운 상태를 가지게 된다.
진행은 S0, A0, R1, S1, A1, R2, …
이렇게 진행된다.

함수 p

함수 p는 MDP의 dynamics을 정의한다.
우리가 어떤 State에서 어떤 Action을 했을 때, Environment와 상호작용하기 때문에,
새로운 State와 Reward를 받게 된다.
이 정보를 얻기위한 방법으로 p 라는 함수를 사용한다.
p의 정의는 아래와 같다.
$p(s', r|s, a) \doteq Pr\left \{ S_{t}=s',R_{t}=r|S_{t-1}=s,A_{t-1}=a \right \}$

State-transition Probability

어떤 State에서 어떤 Action을 했을 때, 정해진 State(s’)가 될 확률을 계산할 수 있다. $p(s'|s, a) \doteq Pr\left \{ S_{t}=s'|S_{t-1}=s,A_{t-1}=a \right \}=\sum_{r\in R}^{}p(s',r|s,a)$