[RL] 9. Markov Decision Process & "p" function
Markov Decision Process(이하 MDP)는 행동이 즉각적인 보상에만 영향을 미치는 것이 아니고
이어지는 상황이나 상태에 영향을 미쳐 결국에는 미래의 보상에 영향을 준다.
따라서 MDP는 지연된 보상을 포함하며, 이 지연된 보상과 즉각적인 보상 사이에서 균형을 잡을 필요가 있다.
Markov Decision Process(이하 MDP)는 행동이 즉각적인 보상에만 영향을 미치는 것이 아니고
이어지는 상황이나 상태에 영향을 미쳐 결국에는 미래의 보상에 영향을 준다.
따라서 MDP는 지연된 보상을 포함하며, 이 지연된 보상과 즉각적인 보상 사이에서 균형을 잡을 필요가 있다.
in Algorithm
배열의 최솟값을 선택해서 앞에 위치시키는 방법이다.
이 방법은 n + n -1 + n -2 + n - 3 … 의 연산을 가지므로,
n(n+1)/2, 즉 O(n^2)의 연산 복잡도를 가진다.
입실론 탐욕적 선택은 정말 간단하다.
Exploitation과 Exploration 선택이 단순하게 선택된다.
하지만, 우리가 어느정도 정보에 따라서 Exploration을 선택할 수 있다면
더 좋지 않을까??