Youtube

連 reward 都沒有

兩種 approaches

  • Behavior Cloning

    • = supervised learning
    • 蒐集的到的 state 有限
    • 需要知道更多 expert 在各種極端狀況下會採取的行為
    • 然而 network 的 capacity 是有限的,無法完全學到專家的所有行為 (包括有用&無用),因此可能只學到一些不該學的東西
  • Inverse Reinforcement Learning

Inverse Reinforcement Learning (Inverse Optimal Control)

先複習 ML 23-3

  • 專家的 demonstration 的 data 只需要幾筆,因為 agent 仍然可以跟環境互動很多次

Third Person Imitation Learning

  • imitation learning
  • domain adversarial training
    • 讓 machine 在第一人稱 & 第三人稱的視角 看到一樣的東西

Recap: Sentence Generation & Chat-bot

  • SeqGAN 其實就是 IRL
  • blablabla

results matching ""

    No results matching ""