Youtube

參考資料

莫煩 - prioritized experience replay (DQN)


一種可以使 DQN 的 training 較為穩定的方法是 Prioritized Replay

以下不確定

  • : 現在得到的 reward
  • : Q 的現值
  • :Q 根據上個 state 和 action 的值

理論上 應該要和 相同,因此 可以視為 error (TD-error?)

error 越大,priority 越高

results matching ""

    No results matching ""