掩碼語言建模(MCM):輸入序列中的某些單詞或標記會被替換為特殊的掩碼標記,然後預訓練模型被要求根據可見的多模態上下文來預測這些被遮蔽的單詞或標記。
掩碼圖像建模(MIM):輸入圖像中的部分區域會被隱藏或被替換為特殊的掩碼標記,然後預訓練模型被要求在僅看到其餘圖像內容與文本等其他模態信息的情況下,預測或還原被遮蔽的圖像區域。
圖像-文本匹配(ITM):實現圖像與文本的全局對齊。通常是給定圖文對作為正樣本,隨即配對作為負樣本,然後通過二分分類方法實現圖像和文本的匹配,從而建立圖像和文字之間的語義關聯。
圖像-文本對比學習(ITC):使用對比學習的方法將圖像和文本的相同樣本對的向量表示拉近,不同樣本對的向量表示推遠,從而增強圖像和文本之間的語義關聯性。