5.1.1.3 聚合与实体识别 (黄色贴) 5.1.1.3 聚合与实体识别(黄色贴):当“张三”在十份合同里被拆成七种ID——一次生产环境下的跨文档指代消解实战手记 凌晨2:17,告警钉钉弹出第三条红色消息:“合同主体一致性校验失败率突增至43.6%”。运维同事附了一句:“上游刚切了新OCR模型,但下游聚合模块开始把同一法人识别成‘张三’‘张三’‘ZhangSan’‘张三(法定代表人)’‘张三先生’‘张三(身份证号后四位:)’‘张三(签约方A)’……七个不同实体。” 这不是算法demo里的toy数据。这是某省政务合同智能归档平台的真实切流现场——日均处理12.7万份PDF合同,覆盖建设工程、政府采购、国企采购三类业务,每份含3–17个签署方,平均实体密度达8.3个/页。