[RL] 6. Epsilon Greedy

이전에 우리는 Exploration을 이용해야 한다는 점을 알았다.
그렇다면 모험을 떠나기 위해서는 어떤 방법을 사용해야 될까??

Epsilon Greedy는 해결방법 중 하나이다.
이 방법은 Greedy한 행동(Exploitation)과 random한 행동 선택(Exploration)을 섞은 방법이다.
epsilon이라는 상수를 선언한다. epsilon은 0 ~ 1의 값을 가진다.
그 후에는 epsilon이라는 일정한 확률에 따라 행동을 선택하게 된다.
epsilon 확률로 모험을 하게 되고, 1 - epsilon 확률로 Greedy한 선택을 하게 된다.
epsilon 값을 조정하면서, Exploitation과 Exploration의 비중을 선택할 수 있다.

Epsilon Greedy 방법은 나중에 나올 여러 강화학습 방법과 쉽게 융합될 수 있어, 다양한 곳에 사용된다.

Continue reading

[RL] 5. Exploitation, Exploration

최선의 정책을 얻기 위해 우리는 어떻게 해야될까?
최고의 가치가 예상되는 길로 계속 간다는 것이 첫번째 해답일 것이다.
다른 한 방법은 새로운 길로 모험을 떠나는 것이다. 이 길이 이 전 전략보다 좋을 지, 나쁠 지는 알 수 없다.
하지만, 정해진 길만 가면 우리는 더 좋은 방법을 끝끝내 찾지 못할 것이다.

Exploitation

우리가 최선의 방법만 선택하는 것을 Exploitation이라고 한다.
단어의 뜻을 찾아보면

  1. 착취
  2. (토지·석유 등의) 개발
  3. (부당한) 이용

이라는 뜻이 나온다. 뜻을 생각해보자면 행위자 입장에서 단순히 최대 가치를 얻을 수 있도록 행동하는 것을
의미한다.
즉, 근미래의 이득을 위해 행동하는 것이다.
예를 들어 Greedy하게 선택하는 방법이 있다.

Exploitation만 하게 된다면, 우리는 지름길이 있어도 발견하지 못할 것이다.
따라서, 우리는 모험을 떠나야 한다!


Continue reading

Pagination


© 2020.12. by SungJae Yu

Powered by S.J Yu