[RL] 9. Markov Decision Process & "p" function

Markov Decision Process(이하 MDP)는 행동이 즉각적인 보상에만 영향을 미치는 것이 아니고
이어지는 상황이나 상태에 영향을 미쳐 결국에는 미래의 보상에 영향을 준다.
따라서 MDP는 지연된 보상을 포함하며, 이 지연된 보상과 즉각적인 보상 사이에서 균형을 잡을 필요가 있다.

Continue reading

Selection Sort, Merge Sort

Selection Sort

배열의 최솟값을 선택해서 앞에 위치시키는 방법이다.
이 방법은 n + n -1 + n -2 + n - 3 … 의 연산을 가지므로,
n(n+1)/2, 즉 O(n^2)의 연산 복잡도를 가진다.

Continue reading

Pagination


© 2020.12. by SungJae Yu

Powered by S.J Yu