7.2 评估体系与基准测试 (Benchmarks)

文档摘要

7.2 评估体系与基准测试 (Benchmarks) 第七章：数据生态与基础设施 7.2 评估体系与基准测试（Benchmarks） ——当“跑通模型”不再等于“交付价值”，我们如何用可复现、可归因、可演化的基准，把智能体的“能力幻觉”钉在真实世界的标尺上？你有没有遇到过这样的场景：团队花了三个月训练出一个抓取策略，在仿真器里成功率高达98.7%，但一上真机，机械臂在光照稍变的实验室角落就开始反复抖动、漏抓；又或者，同一个视觉-语言-动作联合模型，在ManiSkill v1的Screwdriver任务上得分碾压基线，却在BEHAVIOR中连打开抽屉的第一步——识别拉手朝向——都错误率超60%？这不是模型不行，而是评估失焦。