Youtube

一般來說,Q learning 只能應付離散的值

第三招

  • a 是一個 continuous 的 vector,例如機器人的每個關節所需要轉的角度
  • Q function Q(s,a)=(aμ(s))TΣ(s)(aμ(s))+V(s)
    • 什麼樣的 a 會讓 Q value 最大呢? 其實就是 μ(s)
      • 只有在 Σ 必須是正定(positive definite)矩陣的情況下才成立

第四招

不要用 Q-learning

Actor-Critic 才是王道

results matching ""

    No results matching ""