2026年05月14日-多模态AI观察 今日焦点 OpenAI GPT-4o发布引领多模态融合新纪元 OpenAI于2026年5月13日发布GPT-4o("o"代表"omni"全能),标志着AI多模态理解能力实现质的飞跃。GPT-4o能够在232毫秒内平均响应音频输入,达到人类对话响应速度,实时情感感知能力引发业界震动。 技术前沿进展 视觉语言模型(VLM)突破 Gemini Ultra 2.0性能登顶 Google DeepMind发布Gemini Ultra 2.0,在MMMU(多学科多模态理解)基准测试中达到62.1%准确率,首次超越人类专家平均水平(59.