Powered by GitBook

Youtube

連 reward 都沒有

兩種 approaches

Behavior Cloning
- = supervised learning
- 蒐集的到的 state 有限
- 需要知道更多 expert 在各種極端狀況下會採取的行為
- 然而 network 的 capacity 是有限的，無法完全學到專家的所有行為 (包括有用&無用)，因此可能只學到一些不該學的東西
Inverse Reinforcement Learning

Inverse Reinforcement Learning (Inverse Optimal Control)

先複習 ML 23-3

專家的 demonstration 的 data 只需要幾筆，因為 agent 仍然可以跟環境互動很多次

Third Person Imitation Learning

imitation learning
domain adversarial training
- 讓 machine 在第一人稱 & 第三人稱的視角看到一樣的東西

Recap: Sentence Generation & Chat-bot

SeqGAN 其實就是 IRL
blablabla

results matching ""

No results matching ""