多模态网络 在解决自然语言处理(NLP)任务的成功之后,类似的架构也被应用于计算机视觉任务。构建能够将视觉和自然语言能力结合在一起的模型的兴趣日益增长。其中一个尝试是由OpenAI完成的,称为CLIP和DALL·E。 对比图像预训练(CLIP) CLIP的主要思想是能够比较文本提示与图像,并确定该图像与提示的相关程度。 CLIP架构 图片来自这篇博客文章 该模型是在从互联网获取的图像及其标题上进行训练的。对于每个批次,我们选取N对(图像,文本),并将其转换为一些向量表示I 1 ,..., I N / T 1 , ..., T N 。然后将这些表示匹配在一起。损失函数被定义为最大化一对对应向量(如I i 和 T i )之间的余弦相似度,同时最小化与其他所有对之间的余弦相似度。