Youtube

可以參考 Lec 23-1

Tip 2: Assign Suitable Credit

  1. 計算 reward 時,不全部加總,而是從該 state 之後開始加到最後
  2. 計算 reward 時,state 離結局越遠,權重越小
  3. reward baseline 可以是 state-dependent 的值,甚至是一個 network 的 output
  4. 即 Advantage Function
    • 採取某 action 的 reward 相較於其他的 action 有多好

results matching ""

    No results matching ""