[RL] 5. Exploitation, Exploration
최선의 정책을 얻기 위해 우리는 어떻게 해야될까?
최고의 가치가 예상되는 길로 계속 간다는 것이 첫번째 해답일 것이다.
다른 한 방법은 새로운 길로 모험을 떠나는 것이다. 이 길이 이 전 전략보다 좋을 지, 나쁠 지는 알 수 없다.
하지만, 정해진 길만 가면 우리는 더 좋은 방법을 끝끝내 찾지 못할 것이다.
Exploitation
우리가 최선의 방법만 선택하는 것을 Exploitation이라고 한다.
단어의 뜻을 찾아보면
- 착취
- (토지·석유 등의) 개발
- (부당한) 이용
이라는 뜻이 나온다. 뜻을 생각해보자면 행위자 입장에서 단순히 최대 가치를 얻을 수 있도록 행동하는 것을
의미한다.
즉, 근미래의 이득을 위해 행동하는 것이다.
예를 들어 Greedy하게 선택하는 방법이 있다.
Exploitation만 하게 된다면, 우리는 지름길이 있어도 발견하지 못할 것이다.
따라서, 우리는 모험을 떠나야 한다!
Exploration
Exploration은 말그대로 모험이다.
우리는 가보지 않은 길을 모험하면서 더 좋은 길을 찾기도 한다.
Agent도 마찬가지이다. 새로운 모험을 하며 더 좋은 Policy를 찾을 수 있다.
즉, 먼 미래의 가치를 생각하는 투자이다.
하지만 모험만 떠나는 것은 비효율적이다.
Exploitation과 Exploration을 적절히 이용해야 우리는 최적의 Policy를 찾을 수 있다.
그렇다면 Agent가 Exploration을 떠나게 하는 방법은 무엇이 있을까??
- Epsilon Greedy
- Optimistic Initia Value
- UCB(Upper-Confidence Bound)