spatial transform layer 使 NN 可以對圖片的平移、旋轉、縮放有 invariance 的效果可以接在整個 CNN 前面，也可以接在 convolutional layer (feature map) 的後面

對 x、y 座標做轉換只需要輸出 6 個參數 a, b, c, d, e, f

$\begin{bmatrix} a & b \\ c & d \end{bmatrix} \begin{bmatrix} x\\y \end{bmatrix} + \begin{bmatrix} e \\ f \end{bmatrix}$

若只輸出 4 個參數 a, d, e, f

$\begin{bmatrix} a & 0 \\ 0 & d \end{bmatrix} \begin{bmatrix} x\\y \end{bmatrix} + \begin{bmatrix} e \\ f \end{bmatrix}$

就只能做縮放 & 平移，有種 focus 的味道

Spatial Transformer Layer

results matching ""