Youtube
連 reward 都沒有
兩種 approaches
Behavior Cloning
- = supervised learning
- 蒐集的到的 state 有限
- 需要知道更多 expert 在各種極端狀況下會採取的行為
- 然而 network 的 capacity 是有限的,無法完全學到專家的所有行為 (包括有用&無用),因此可能只學到一些不該學的東西
Inverse Reinforcement Learning
Inverse Reinforcement Learning (Inverse Optimal Control)
先複習 ML 23-3
- 專家的 demonstration 的 data 只需要幾筆,因為 agent 仍然可以跟環境互動很多次
Third Person Imitation Learning
- imitation learning
- domain adversarial training
- 讓 machine 在第一人稱 & 第三人稱的視角 看到一樣的東西
Recap: Sentence Generation & Chat-bot
- SeqGAN 其實就是 IRL
- blablabla