6.3.1 运行 LLaVA 等视觉模型

文档摘要

6.3.1 运行 LLaVA 等视觉模型 6.3.1 运行 LLaVA 等视觉模型：从零构建可复现、可调试、可部署的多模态推理流水线你有没有想过——当一个大语言模型第一次“看见”图像时，它究竟在“想”什么？不是拟人化的诗意想象，而是实实在在的张量对齐、跨模态投影、注意力重加权与语义蒸馏。LLaVA（Large Language and Vision Assistant）不是把CLIP扔进LLM的搅拌机里随便搅一搅就完事；它是将视觉编码器的隐空间、语言解码器的词元空间、以及连接二者的投影矩阵，用数学语言精确缝合的一套精密系统。运行它，远不止是加那么简单。今天，我们就以一线工程师的身份，亲手拆解LLaVA v1.