Youtube
可以參考 Lec 23-1
Tip 2: Assign Suitable Credit
- 計算 reward 時,不全部加總,而是從該 state 之後開始加到最後
- 計算 reward 時,state 離結局越遠,權重越小
- reward baseline b 可以是 state-dependent 的值,甚至是一個 network 的 output
- Aθ(st,at)=R−b 即 Advantage Function
- 採取某 action 的 reward 相較於其他的 action 有多好