Restriction of Break Point

在最小 Break Point K=2 , 資料數量 N=3 的情況下
(在二元分類問題中) 若Hypothesis不能shatter任意兩筆資料, 結果會是Hypothesis set中最多只能有4個hypothesis。過程見影片較詳細。

Bounding Function: Basic cases

Bounding Function B(N,k) : 最小的 Breaking Point 是 k, 在N筆資料時最多會有多少種dichotomy, 即成長函數的上界。

  • 在 N < k 時, B(N,k)=2N
  • 在 N = k 時, B(N,k)=2N1

Bounding Function: Inductive Cases


經過一番證明(影片中較詳細), 我們可以知道Bounding Function的上限, 即表中任一數值的上限為其上方和左上方數值之和。

最後我們可以得到 B(N,k)=≤k1i=0CNi, 這會是一個N的多項式

A Pictorial Proof

但是我們想把 Eout 變成有限的, 所以抽另外一組資料 D 來計算 Ein 當作 Eout

若使用各種DataSet來計算各種 EinEin 則這些 E 的分布會如上圖右, 那麼在壞事情(EinEout 離很遠)發生的時候, EinEin 有超過1/2的機率也會離很遠。


  • 12P[hH s.t.|Ein(h)Eout(h)|>ϵ]: 1/2 * 壞事情發生的機率
  • P[hH s.t.|Ein(h)Ein(h)|>ϵ]: EinEout 離很遠的機率(改了標準)
  • P[hH s.t.|Ein(h)Eout(h)|>ϵ]2P[hH s.t.|Ein(h)Ein(h)|>ϵ]


D有 x1xN, D' 有 x1xN, 我們本來有無限的H, 而現在只需要計算 H(x1,...,xN,x1,...,xN) 可以分出多少種dichotomy, 即 mH(2N)


  • |EinEin| : EinEin 的差別
  • |EinEin+Ein2| : Ein 跟所有人的差別

所以用 ϵ/4 代入Hoeffding


Vapnik-Chervonenkis (VC) bound


從最後題目可以發現這個bound並不是這麼準, 下堂課會探討為啥明明不準還要推導這個bound, 還有要如何利用break point。

results matching ""

    No results matching ""