9.11 视觉问答 (Visual Question Answering) 9.11 视觉问答 (Visual Question Answering) - 大模型时代的智能视觉交互 9.11.1 引言 随着人工智能技术的飞速发展,特别是大型预训练模型(Large Pre-trained Models,简称大模型)的崛起,计算机视觉领域迎来了前所未有的变革。视觉问答 (Visual Question Answering, VQA) 作为连接图像理解和自然语言处理的关键桥梁,正受益于大模型的强大能力,展现出更加广阔的应用前景。VQA 旨在使计算机能够理解图像内容并回答关于图像的自然语言问题,这不仅需要机器具备识别图像中物体的能力,更需要理解问题意图,进行推理和知识整合,最终生成准确且自然的答案。