Youtube
先參考 A3C
Dueling DQN
(img)
Prioritized Replay

Multi-step
MC 和 TD 的折衷方案

TD-error 使用更長的 step 來計算
Noisy Net

- 可以在 Q network 參數加上 noise,再去玩整場 game
- 這樣整場遊戲的 actor 可以視為同一個?

Distributional Q-function
沒仔細看,之後重看
Rainbow
- 所有方法加起來就變 Rainbow 了 YA
(img)

MC 和 TD 的折衷方案

TD-error 使用更長的 step 來計算


沒仔細看,之後重看