10分钟了解如何进行多模态RAG 阅读提示:阅读本文需要对RAG技术有基本的了解,如果你不清楚RAG,欢迎参考我之前的文章: 很多RAG是建立在文本的基础上的,但是现实的情况下,我们有很多图片甚至视频数据,我们有时候也会想搭建图片/视频的多模态RAG,让我们可以基于图片/视频进行问答。 1.架构 视频可以看作很多帧图片的集合,所以我们可以从图片开始。 01 注意到上图,紫色的是构建Vector DB的过程,天蓝色的是inference的过程。整个多模态的架构如下 处理多模态数据:得到image-text pair; 将image-text pair数据转化为embedding,存入Vector DB; 将一个query转化为embedding,并在Vector DB中Retrieval;