Youtube
Reward Shaping
- 拿 reward 騙他做 action
- 需要一定程度的 domain knowledge
Curiosity
- ICM (= intrinsic curiosity module)
- 越難預測,reward 越大
- 但並不是所有難預測的 state 都很重要
- 用 feature extractor 把 state 中沒意義的部分濾掉
Curriculum Learning
- 先從簡單的 task 開始做,再做難的會比較好
- 這個概念不只用在 RL,例如 RNN 有很多文獻顯示先 train 短的 sequence,再 train 長的,會 train 得比較好
- 同樣需要一些 domain knowledge
Reverse Curriculum Generation
- 定義 goal state
- 從 附近 sample 一些 state 來做 RL
- blablabla
Hierarchical Reinforcement Learning
- 很多 agent
- 一個 high-level 的 agent 負責定目標,分配給其他 agent 完成
這段到底在說啥XDDDDDDDDD