Powered by GitBook

Youtube

參考資料

莫煩 - prioritized experience replay (DQN)

一種可以使 DQN 的 training 較為穩定的方法是 Prioritized Replay

以下不確定

$R$ : 現在得到的 reward
$\max_\limits{a'}f_{Q^*}(s',a';\Theta^-)$ : Q 的現值
$f_{Q^*}(s',a';\Theta)$ ：Q 根據上個 state 和 action 的值

理論上 $R + \max_\limits{a'}f_{Q^*}(s',a';\Theta^-)$ 應該要和 $f_{Q^*}(s',a';\Theta)$ 相同，因此 $R + \max_\limits{a'}f_{Q^*}(s',a';\Theta^-)-f_{Q^*}(s',a';\Theta)$ 可以視為 error (TD-error?)

error 越大，priority 越高

results matching ""

No results matching ""