Youtube

一般來說,Q learning 只能應付離散的值

第三招

  • a 是一個 continuous 的 vector,例如機器人的每個關節所需要轉的角度
  • Q function
    • 什麼樣的 a 會讓 Q value 最大呢? 其實就是
      • 只有在 必須是正定(positive definite)矩陣的情況下才成立

第四招

不要用 Q-learning

Actor-Critic 才是王道

results matching ""

    No results matching ""