Restriction of Break Point
在最小 Break Point , 資料數量 的情況下
(在二元分類問題中) 若Hypothesis不能shatter任意兩筆資料, 結果會是Hypothesis set中最多只能有4個hypothesis。過程見影片較詳細。
Bounding Function: Basic cases
Bounding Function : 最小的 Breaking Point 是 k, 在N筆資料時最多會有多少種dichotomy, 即成長函數的上界。
- 在 N < k 時,
- 在 N = k 時,
Bounding Function: Inductive Cases
經過一番證明(影片中較詳細), 我們可以知道Bounding Function的上限, 即表中任一數值的上限為其上方和左上方數值之和。
最後我們可以得到 , 這會是一個N的多項式
A Pictorial Proof
但是我們想把 變成有限的, 所以抽另外一組資料 來計算 當作
若使用各種DataSet來計算各種 和 則這些 的分布會如上圖右, 那麼在壞事情( 和 離很遠)發生的時候, 和 有超過1/2的機率也會離很遠。
- : 1/2 * 壞事情發生的機率
- : 和 離很遠的機率(改了標準)
- 即
D有 到 , D' 有 到 , 我們本來有無限的, 而現在只需要計算 可以分出多少種dichotomy, 即
- : 跟 的差別
- : 跟所有人的差別
所以用 代入Hoeffding
Vapnik-Chervonenkis (VC) bound
從最後題目可以發現這個bound並不是這麼準, 下堂課會探討為啥明明不準還要推導這個bound, 還有要如何利用break point。