[RL] 7. Optimistic Initial Value
Agent가 Exploration을 할 수 있게 하는 방법 두 번째이다.
Agent가 Exploration을 할 수 있게 하는 방법 두 번째이다.
이전에 우리는 Exploration을 이용해야 한다는 점을 알았다.
그렇다면 모험을 떠나기 위해서는 어떤 방법을 사용해야 될까??
Epsilon Greedy는 해결방법 중 하나이다.
이 방법은 Greedy한 행동(Exploitation)과 random한 행동 선택(Exploration)을 섞은 방법이다.
epsilon이라는 상수를 선언한다. epsilon은 0 ~ 1의 값을 가진다.
그 후에는 epsilon이라는 일정한 확률에 따라 행동을 선택하게 된다.
epsilon 확률로 모험을 하게 되고, 1 - epsilon 확률로 Greedy한 선택을 하게 된다.
epsilon 값을 조정하면서, Exploitation과 Exploration의 비중을 선택할 수 있다.
Epsilon Greedy 방법은 나중에 나올 여러 강화학습 방법과 쉽게 융합될 수 있어, 다양한 곳에 사용된다.
최선의 정책을 얻기 위해 우리는 어떻게 해야될까?
최고의 가치가 예상되는 길로 계속 간다는 것이 첫번째 해답일 것이다.
다른 한 방법은 새로운 길로 모험을 떠나는 것이다. 이 길이 이 전 전략보다 좋을 지, 나쁠 지는 알 수 없다.
하지만, 정해진 길만 가면 우리는 더 좋은 방법을 끝끝내 찾지 못할 것이다.
우리가 최선의 방법만 선택하는 것을 Exploitation이라고 한다.
단어의 뜻을 찾아보면
이라는 뜻이 나온다. 뜻을 생각해보자면 행위자 입장에서 단순히 최대 가치를 얻을 수 있도록 행동하는 것을
의미한다.
즉, 근미래의 이득을 위해 행동하는 것이다.
예를 들어 Greedy하게 선택하는 방법이 있다.
Exploitation만 하게 된다면, 우리는 지름길이 있어도 발견하지 못할 것이다.
따라서, 우리는 모험을 떠나야 한다!