ML Lecture 15: Unsupervised Learning - Neighbor Embedding

PDF

在高維空間上，只有靠得比較近的 data point 做 Euclidean Distance 才合理，若 data point 之間離得比較遠，使用 Euclidean Distance 就不合理，因此降維使得 Euclidean Distance 合理

先選出 $x^i$ 的 neighbor $x^j$ ，他們之間的關係寫做 $w_{ij}$
希望 $x^i$ 可以寫成 neighbors 的 linear combination，因此要 minimize $\sum_i\lVert x^i-\sum_j w_{ij}x^j\rVert_2$ ，得到所有 $w_{ij}$
希望降維後的 space 仍然保持原來 space 的關係，也就是希望可以利用同樣的 linear combination 產生 $z^i$ ，因此要 minimize $\sum_i\lVert z^i-\sum_j w_{ij}z^j\rVert_2$

LLE 需要選好 neighbor 的數量，才會 work

Graph-based approach
Assumption: if $x^1$ and $x^2$ are close in a high density region, $z^1$ and $z^2$ are then close to each other

回想 semi-supervised learning

$S = \frac{1}{2}\sum_{i,j}w_{i,j}(y^i-y^j)^2 = y^TLy$
- w_{i,j}: 相連的data i和j的相似程度，若沒相連則=0
$L=\sum_\limits{x^r}C(y^r,\hat y^r)+\lambda S$

S=12∑i,jwij∥zi−zj∥2
- 寫平方不太好，寫 Euclidean Distance 比較好
但是這樣的 constraint 還不夠，因為它會想把所有 z 都設 0，所以要再對 z 下 constraint
- if the dim of $z$ is $M$ , $\text{Span}\{z^1, ..., z^N\} = \mathbb R^M$
這樣解出來的 $z$ 其實就是 graph Laplacian 的 Eigen Vector
找到 $z$ 之後再對 $z$ 做 clustering，這種做法叫 spectral clustering

之前做法的問題

t-SNE

計算所有 x 之間的相似度 S(xi,xj)
- 之後會說相似度的計算方式
對 S 做 normalize 得到 P(xj|xi)=S(xi,xj)∑k≠iS(xi,xk)
- normalize 是必要的，因為你不知道計算出的 $S$ scale 在什麼範圍
可以用類似的方式對 lower dimension 計算 $Q(z^j|z^i) = \dfrac{S'(z^i,z^j)}{\sum_{k\neq i}S'(z^i,z^k)}$
找到 z 使得 P 和 Q 的 distribution 越接近越好，因此 minimize L=∑iKL(P(∗|xi)||Q(∗|zi))=∑i∑j.....
- 可以用 gradient descent 解這問題

之前的 graph-based 方法說用 RBF function 比較好

因此計算 $x$ 之間的 similarity 時：

而計算 $z$ 的 similarity 時：

SNE

t-SNE