Processing math: 100%

Powered by GitBook

Youtube

一般來說，Q learning 只能應付離散的值

第三招

a 是一個 continuous 的 vector，例如機器人的每個關節所需要轉的角度
Q function Q(s,a)=−(a−μ(s))TΣ(s)(a−μ(s))+V(s)
- 什麼樣的 a 會讓 Q value 最大呢? 其實就是 μ(s)
  - 只有在 $\Sigma$ 必須是正定(positive definite)矩陣的情況下才成立

第四招

不要用 Q-learning

Actor-Critic 才是王道

results matching ""

No results matching ""