Youtube
先參考 A3C
Dueling DQN
(img)
Prioritized Replay
Multi-step
MC 和 TD 的折衷方案
TD-error 使用更長的 step 來計算
Noisy Net
- 可以在 Q network 參數加上 noise,再去玩整場 game
- 這樣整場遊戲的 actor 可以視為同一個?
Distributional Q-function
沒仔細看,之後重看
Rainbow
- 所有方法加起來就變 Rainbow 了 YA
(img)
MC 和 TD 的折衷方案
TD-error 使用更長的 step 來計算
沒仔細看,之後重看