Restriction of Break Point
在最小 Break Point K=2 , 資料數量 N=3 的情況下
(在二元分類問題中) 若Hypothesis不能shatter任意兩筆資料, 結果會是Hypothesis set中最多只能有4個hypothesis。過程見影片較詳細。
Bounding Function: Basic cases
Bounding Function B(N,k) : 最小的 Breaking Point 是 k, 在N筆資料時最多會有多少種dichotomy, 即成長函數的上界。
- 在 N < k 時, B(N,k)=2N
- 在 N = k 時, B(N,k)=2N−1
Bounding Function: Inductive Cases
經過一番證明(影片中較詳細), 我們可以知道Bounding Function的上限, 即表中任一數值的上限為其上方和左上方數值之和。
最後我們可以得到 B(N,k)=≤k−1∑i=0CNi, 這會是一個N的多項式
A Pictorial Proof
但是我們想把 Eout 變成有限的, 所以抽另外一組資料 D′ 來計算 Ein′ 當作 Eout
若使用各種DataSet來計算各種 Ein 和 Ein′ 則這些 E 的分布會如上圖右, 那麼在壞事情(Ein 和 Eout 離很遠)發生的時候, Ein 和 Ein′ 有超過1/2的機率也會離很遠。
- 12P[∃h∈H s.t.|Ein(h)−Eout(h)|>ϵ]: 1/2 * 壞事情發生的機率
- P[∃h∈H s.t.|Ein(h)−Ein′(h)|>ϵ]: Ein 和 Eout 離很遠的機率(改了標準)
- 即 P[∃h∈H s.t.|Ein(h)−Eout(h)|>ϵ]≤2P[∃h∈H s.t.|Ein(h)−Ein′(h)|>ϵ]
D有 x1 到 xN, D' 有 x1′ 到 xN′, 我們本來有無限的H, 而現在只需要計算 H(x1,...,xN,x1′,...,xN′) 可以分出多少種dichotomy, 即 mH(2N)
- |Ein−Ein′| : Ein 跟 Ein′ 的差別
- |Ein−Ein+Ein′2| : Ein 跟所有人的差別
所以用 ϵ/4 代入Hoeffding
Vapnik-Chervonenkis (VC) bound
從最後題目可以發現這個bound並不是這麼準, 下堂課會探討為啥明明不準還要推導這個bound, 還有要如何利用break point。