3.1.1 视觉-语言-动作模型 (VLA Models,如 RT-2) 当 RT-2 的动作 logits 在真实机械臂上集体“失重”:一个关于 VLA 模型动作空间对齐的硬核排障手记 凌晨两点十七分,实验室的机械臂还悬在半空——不是执行失败,而是根本没动。 不是电机堵转,不是通信超时,不是安全急停触发。 是它的控制器收到了一串逻辑上“完美”、数值上“合理”、但物理上完全不可执行的动作指令:$[0.0012, -0.0008, 0.0000, 0.0031, 0.0000, 0.0000]$ —— 六维关节增量,单位是弧度,幅度比眨眼时眼睑肌的微颤还小两个数量级。 这不是过拟合,不是梯度消失,不是数据噪声。