3.1.2 多模态大语言模型 (MLLM) 作为高层规划器 3.1.2 多模态大语言模型(MLLM)作为高层规划器:当视觉指令被“误读”时,我们不是调参,而是重写提示的语义契约 你有没有在凌晨两点盯着一段运行了十七次都失败的机器人导航日志发呆? 日志里清清楚楚写着:“LLM 输出动作序列:[‘打开冰箱门’,‘取出牛奶’,‘关上冰箱门’]”,可机械臂却伸向了微波炉——还反复三次。 不是模型崩了,不是视觉编码器输出错乱,也不是ROS节点丢包。 是它“听懂”了,但听懂的是另一套世界。 这不是幻觉,是真实发生在某智能厨房服务机器人项目中的第七次重大部署事故。而根因,藏在一句看似无害的系统提示词里: “You are a helpful robot planner.