Deep Reinforcement Learning with Double Q-learning

태그
작성일자
1 more property
Mar 19, 2018 deep-learning, reinforcement-learning

WHY?

기존의 DQN은 특정 지점에서의 action-value function을 그 state에서 action을 취했을 때 즉각적으로 얻는 reward와 그 다음 상태의 가치를 discount한 값을 더한 것으로 근사한다. 조금 더 근사를 효율적으로 하기 위하여 target 네트워크를 사용하는데 이때 다음 state의 가치를 최선의 action을 한 결과로 판단하기 때문에 낙관하는(overoptimistic) 결과가 나타난다. 이러한 낙관적인 예측은 점진적으로 suboptimal한 policy에 수렴하도록 유도할 수 있다.

WHAT?

Double DQN은 다음 state를 평가할 때, target network의 최선의 행동을 전제로 평가하지 않고 online network의 최선의 행동을 전제로 평가한다. 기존의 DQN의 목적식이 YtDQN = Rt + 1 + γmaxaQ(St + 1, a; θt)이었다면, DDQN의 목적식은 YtDoubleQ = Rt + 1 + γQ(St + 1, argmaxaQ(St + 1, a; θt); θt)이 된다.

So?

이를 통하여 overoptimistimism 문제를 해결하고 안정적이고 믿을만한 학습을 통하여 좋은 결과를 거두었다.