ML Lecture 4: Classfication
Generative Model (binary classification)
(img 20:22)
- 又稱 prior
- 好像又稱 posterior probability
那如何估測 呢
假設 feature 都是從 Gaussian Distribution 採樣出來的
- 如何估計 Gaussian Distribution 的參數 ?
- Maximum Likelihood
- 給定任意 Gaussian 的 和 ,我們就可以算出 ,即該 Gaussian 產生 的 likelihood
- Likelihood
- 最佳解
- 對上式微分求極值得到
用上述方法得到的 evaluation 很差,為了避免 overfitting,我們讓不同的 class 共用同一組 covariance matrix ,如此參數就更少
Modifying Model
(img 49:20)
現在變成 和 的加權平均 (weighted by element)
- 共用 covariance matrix 之後就變成 linear model,因為 boundary 是 linear 的
- 本來的方法不是 linear model
回顧 machine learning 三步驟
- Function Set (Model)
- Goodness of a function
- Find the best function
(img 54:)
若假設所有 feature 是 independent的,那就是使用 Naive Bayes Classifier
Posterior Probability
那麼 z 應該長啥樣呢?
(img 1:02:05)
(img 1:09:) 經過一番運算,得到 z 是一串很長的式子
- 現在又假設各個 class 共用 covariance matrix,所以經過化簡,得到
- 就可以假設
- 是一個 vector, 是一個 scalar
- 就可以假設
- 這樣就看出來為何各 class 共用 covariance matrix 的時候,boundary 是 linear 的
在 generative model 中,我們估計
- 為何不直接找出 和 就好呢?
- Discriminative Model: Logistic Regression