ML Lecture 4: Classfication

Generative Model (binary classification)

(img 20:22)

$P(C_1|x) = \dfrac{P(x,C_1)}{P(x)} = \dfrac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1) + P(x|C_2)P(C_2)}$

$P(C_1),P(C_2)$ 又稱 prior
$P(C_1|x)$ 好像又稱 posterior probability

那如何估測 $P(x|C_1), P(x|C_2)$ 呢

假設 feature 都是從 Gaussian Distribution 採樣出來的

如何估計 Gaussian Distribution 的參數 $(\mu,\sigma)$ ?
Maximum Likelihood
- 給定任意 Gaussian 的 $\mu$ 和 $\sigma$ ，我們就可以算出 $p(x)$ ，即該 Gaussian 產生 $x$ 的 likelihood
- Likelihood $L(\mu,\sigma) = f_{\mu,\sigma}(x^{1})f_{\mu,\sigma}(x^{2})...f_{\mu,\sigma}(x^{m})$
- 最佳解 $\mu^*,\sigma^* = arg\max_\limits{\mu,\sigma}L(\mu,\sigma)$
- 對上式微分求極值得到 $\mu^* = \frac{1}{m}\sum_\limits{n=1}^m x^n \\ \sigma^* = \frac{1}{m}\sum_\limits{n=1}^m (x^n-\mu^*)(x^n-\mu^*)^T$

用上述方法得到的 evaluation 很差，為了避免 overfitting，我們讓不同的 class $C_1,C_2$ 共用同一組 covariance matrix $\Sigma$ ，如此參數就更少

Modifying Model

(img 49:20)

$\Sigma$ 現在變成 $\Sigma^1$ 和 $\Sigma^2$ 的加權平均 (weighted by element)

共用 covariance matrix 之後就變成 linear model，因為 boundary 是 linear 的
- 本來的方法不是 linear model

回顧 machine learning 三步驟

Function Set (Model)
Goodness of a function
Find the best function

(img 54:)

若假設所有 feature 是 independent的，那就是使用 Naive Bayes Classifier

Posterior Probability

$P(C_1|x) = \dfrac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1) + P(x|C_2)P(C_2)}\\ = \dfrac{1}{1+\dfrac{P(x|C_2)P(C_2)}{P(x|C_1)P(C_1)}} \\ = \dfrac{1}{1+\exp(-z)} = \sigma(z)$

$z = \ln \dfrac{P(x|c_1)P(c_1)}{P(x|C_2)P(C_2)}$

那麼 z 應該長啥樣呢?

(img 1:02:05)

$z = \ln \dfrac{P(x|c_1)P(c_1)}{P(x|C_2)P(C_2)} \\ = \ln \dfrac{P(x|C_1)}{P(x|C_2)} + \ln \dfrac{P(C_1)}{P(C_2)}$

$\ln \dfrac{P(C_1)}{P(C_2)} = \ln \dfrac{N_1}{N_2}$

(img 1:09:) 經過一番運算，得到 z 是一串很長的式子

現在又假設各個 class 共用 covariance matrix，所以經過化簡，得到
- $z = (\mu^1-\mu^2)^T \Sigma^{-1} x - \text{blablabla}$
- 就可以假設
  - $w^T$ 是一個 vector， $b$ 是一個 scalar
這樣就看出來為何各 class 共用 covariance matrix $\Sigma$ 的時候，boundary 是 linear 的

在 generative model 中，我們估計 $N_1,N_2,\mu^1,\mu^2,\Sigma$

為何不直接找出和就好呢?
- Discriminative Model: Logistic Regression

Lec 4: Classification

ML Lecture 4: Classfication

Generative Model (binary classification)

$P(C_1|x) = \dfrac{P(x,C_1)}{P(x)} = \dfrac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1) + P(x|C_2)P(C_2)}$

那如何估測 $P(x|C_1), P(x|C_2)$ 呢

Modifying Model

回顧 machine learning 三步驟

Posterior Probability

results matching ""

No results matching ""

ML Lecture 4: Classfication

Generative Model (binary classification)

P(C1|x)=P(x,C1)P(x)=P(x|C1)P(C1)P(x|C1)P(C1)+P(x|C2)P(C2)P(C_1|x) = \dfrac{P(x,C_1)}{P(x)} = \dfrac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1) + P(x|C_2)P(C_2)}

那如何估測 P(x|C1),P(x|C2)P(x|C_1), P(x|C_2) 呢

Modifying Model

回顧 machine learning 三步驟

Posterior Probability

results matching ""

No results matching ""

$P(C_1|x) = \dfrac{P(x,C_1)}{P(x)} = \dfrac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1) + P(x|C_2)P(C_2)}$

那如何估測 $P(x|C_1), P(x|C_2)$ 呢