spatial transform layer 使 NN 可以對圖片的 平移、旋轉、縮放 有 invariance 的效果 可以接在整個 CNN 前面,也可以接在 convolutional layer (feature map) 的後面
對 x、y 座標做轉換 只需要輸出 6 個參數 a, b, c, d, e, f
若只輸出 4 個參數 a, d, e, f
就只能做縮放 & 平移,有種 focus 的味道