Various sequence to sequence architectures
Basic Models
Image Captioning
pre-trained AlexNet 接 RNN
- 對短文字說明而言效果不錯
同時有不同的 LAB 提出這樣的論文:
- Deep captioning with multimodal recurrent neural networks
- Show and tell: Neural image caption generator
- Deep visual-semantic alignments for generating image descriptions
Picking the most likely sentence
Why not a greedy search?
greedy search: 條件機率第一個詞選最可能的 ,第二個詞也選最可能的 (?),以此類推
- 然而這樣無法選出聯合機率 最大的句子
Beam Search
假設 dictionary 共有 n 個詞彙,句子長度為 ,則 Beam Search 會搜尋 次 (?)
當 時,基本上就是 greedy search