2.1.1 视觉感知:物体识别、6D位姿估计、语义分割 2.1.1 视觉感知:物体识别、6D位姿估计、语义分割 ——当Mask R-CNN在工业抓取场景中“认不出自己的影子”:一个关于光照鲁棒性与几何一致性联合校准的实战手记 凌晨三点十七分,机械臂第三次把螺栓拧进了错误的孔位。不是模型没检测到——它标得清清楚楚:绿色框、0.98置信度、mask边缘锐利如刀切;也不是位姿估计漂移——PnP解算出的旋转矩阵$ \mathbf{R} \in \mathrm{SO}(3) $,平移向量$ \mathbf{t} \in \mathbb{R}^3 $,重投影误差仅0.43像素。问题出在更幽微的地方:模型把真实螺栓和它投在油渍金属台面上的拉长畸变阴影,同时识别为两个独立的“螺栓实例”。