2.3 多模态与复杂场景攻击 2.3 多模态与复杂场景攻击 在对抗攻击的研究版图中,早期工作多聚焦于理想化的数字图像输入,即在像素空间中对分类模型进行微小扰动。然而,真实世界中的AI系统远非如此“干净”——它们运行在物理环境中,处理来自摄像头、麦克风、传感器网络甚至社交图谱的多源异构信号。当攻击从“数字实验室”走向“现实战场”,对抗样本的生成、传播与生效机制便面临前所未有的复杂性。这不仅要求我们重新思考扰动的表示形式,更迫使我们直面跨模态耦合、环境噪声、感知失真、动态交互等现实约束。本文将深入探讨如何在视觉、语音/NLP、图神经网络(GNN)与强化学习(RL)等多模态复杂场景中构建可落地的对抗攻击,并提供可复现的技术路径与工程实践细节。