10分钟了解如何进行多模态RAG

文档摘要

10分钟了解如何进行多模态RAG 阅读提示：阅读本文需要对RAG技术有基本的了解，如果你不清楚RAG，欢迎参考我之前的文章：很多RAG是建立在文本的基础上的，但是现实的情况下，我们有很多图片甚至视频数据，我们有时候也会想搭建图片/视频的多模态RAG，让我们可以基于图片/视频进行问答。 1.架构视频可以看作很多帧图片的集合，所以我们可以从图片开始。 01 注意到上图，紫色的是构建Vector DB的过程，天蓝色的是inference的过程。整个多模态的架构如下处理多模态数据：得到image-text pair；将image-text pair数据转化为embedding，存入Vector DB；将一个query转化为embedding，并在Vector DB中Retrieval；