Youtube
參考資料
莫煩 - prioritized experience replay (DQN)
一種可以使 DQN 的 training 較為穩定的方法是 Prioritized Replay
以下不確定
- : 現在得到的 reward
- : Q 的現值
- :Q 根據上個 state 和 action 的值
理論上 應該要和 相同,因此 可以視為 error (TD-error?)
error 越大,priority 越高
莫煩 - prioritized experience replay (DQN)
一種可以使 DQN 的 training 較為穩定的方法是 Prioritized Replay
以下不確定
理論上 應該要和 相同,因此 可以視為 error (TD-error?)
error 越大,priority 越高