Youtube
一般來說,Q learning 只能應付離散的值
第三招
- a 是一個 continuous 的 vector,例如機器人的每個關節所需要轉的角度
- Q function Q(s,a)=−(a−μ(s))TΣ(s)(a−μ(s))+V(s)
- 什麼樣的 a 會讓 Q value 最大呢? 其實就是 μ(s)
- 只有在 Σ 必須是正定(positive definite)矩陣的情況下才成立
- 什麼樣的 a 會讓 Q value 最大呢? 其實就是 μ(s)
一般來說,Q learning 只能應付離散的值