ML Lecture 4: Classfication
Generative Model (binary classification)
(img 20:22)
P(C1|x)=P(x,C1)P(x)=P(x|C1)P(C1)P(x|C1)P(C1)+P(x|C2)P(C2)
- P(C1),P(C2) 又稱 prior
- P(C1|x) 好像又稱 posterior probability
那如何估測 P(x|C1),P(x|C2) 呢
假設 feature 都是從 Gaussian Distribution 採樣出來的
- 如何估計 Gaussian Distribution 的參數 (μ,σ)?
- Maximum Likelihood
- 給定任意 Gaussian 的 μ 和 σ,我們就可以算出 p(x),即該 Gaussian 產生 x 的 likelihood
- Likelihood L(μ,σ)=fμ,σ(x1)fμ,σ(x2)...fμ,σ(xm)
- 最佳解 μ∗,σ∗=argmax
- 對上式微分求極值得到
用上述方法得到的 evaluation 很差,為了避免 overfitting,我們讓不同的 class 共用同一組 covariance matrix ,如此參數就更少
Modifying Model
(img 49:20)
現在變成 和 的加權平均 (weighted by element)
- 共用 covariance matrix 之後就變成 linear model,因為 boundary 是 linear 的
- 本來的方法不是 linear model
回顧 machine learning 三步驟
- Function Set (Model)
- Goodness of a function
- Find the best function
(img 54:)
若假設所有 feature 是 independent的,那就是使用 Naive Bayes Classifier
Posterior Probability
那麼 z 應該長啥樣呢?
(img 1:02:05)
(img 1:09:) 經過一番運算,得到 z 是一串很長的式子
- 現在又假設各個 class 共用 covariance matrix,所以經過化簡,得到
- 就可以假設
- 是一個 vector, 是一個 scalar
- 就可以假設
- 這樣就看出來為何各 class 共用 covariance matrix 的時候,boundary 是 linear 的
在 generative model 中,我們估計
- 為何不直接找出 和 就好呢?
- Discriminative Model: Logistic Regression