Youtube
可以參考 Lec 23-1
Tip 2: Assign Suitable Credit
- 計算 reward 時,不全部加總,而是從該 state 之後開始加到最後
- 計算 reward 時,state 離結局越遠,權重越小
- reward baseline 可以是 state-dependent 的值,甚至是一個 network 的 output
- 即 Advantage Function
- 採取某 action 的 reward 相較於其他的 action 有多好
可以參考 Lec 23-1