Youtube

Reward Shaping

  • 拿 reward 騙他做 action
  • 需要一定程度的 domain knowledge

Curiosity

  • ICM (= intrinsic curiosity module)
  • 越難預測,reward 越大
  • 但並不是所有難預測的 state 都很重要
    • 用 feature extractor 把 state 中沒意義的部分濾掉

Curriculum Learning

  • 先從簡單的 task 開始做,再做難的會比較好
  • 這個概念不只用在 RL,例如 RNN 有很多文獻顯示先 train 短的 sequence,再 train 長的,會 train 得比較好
  • 同樣需要一些 domain knowledge

Reverse Curriculum Generation

  • 定義 goal state
  • 附近 sample 一些 state 來做 RL
  • blablabla

Hierarchical Reinforcement Learning

  • 很多 agent
  • 一個 high-level 的 agent 負責定目標,分配給其他 agent 完成

這段到底在說啥XDDDDDDDDD

results matching ""

    No results matching ""