Powered by GitBook

Youtube

可以參考 Lec 23-1

Tip 2: Assign Suitable Credit

計算 reward 時，不全部加總，而是從該 state 之後開始加到最後
計算 reward 時，state 離結局越遠，權重越小
reward baseline $b$ 可以是 state-dependent 的值，甚至是一個 network 的 output
即 Advantage Function
- 採取某 action 的 reward 相較於其他的 action 有多好

results matching ""

No results matching ""