Youtube

先參考 A3C

Dueling DQN

(img)

Prioritized Replay

Multi-step

MC 和 TD 的折衷方案

TD-error 使用更長的 step 來計算

Noisy Net

  • 可以在 Q network 參數加上 noise,再去玩整場 game
    • 這樣整場遊戲的 actor 可以視為同一個?

Distributional Q-function

沒仔細看,之後重看

Rainbow

  • 所有方法加起來就變 Rainbow 了 YA

results matching ""

    No results matching ""