Learning is Impossible?
Probability to the Rescue
- N: sample數量
- v : sample 裡面的 positive item 機率
- μ : 實際上的 positive item 機率
- ϵ : 自訂的 v 與 μ 差距門檻
- PAC: 有很高的機率差不多是對的
Connection to Learning
- i.i.d.: independently and identically distributed
最後的問題沒懂
Connection to Real Learning
不好的資料
- Ein 跟 Eout 差很多
假設
- 資料集有 D1 到 D5678 這麼多種
- Hypothesis set 有 h1 到 hM 這麼多種
那麼
- 只要 Dn 這個資料集 使得Hypothesis set中的其中一個 hm 的 Ein 跟 Eout 差很多, 我們就說這個資料集Dn 是不好的資料集
- 假設Hypothesis set 有M個不同的 hypothesis, 則資料集是bad的機率為 2Mexp(−2ϵ2N)
- 也就是說在Hypothesis set有限, 且資料集的資料量大的時候, 資料是壞的機率仍然是小的
總結
作業一
i dunno if my answer is correct
678全錯
9. C105×1210
12. 2exp(−2×0.8×0.8×10)
13. (1/6∗1/2)5 錯
14. ABCD四種骰子都有1/2的機率是orange (1/2)5 錯
15~20懶得寫code ˊˋ