9.3.2 价值对齐:确保智能体社会符合人类价值观 9.3.2 价值对齐:确保智能体社会符合人类价值观 ——一个被低估的“价值锚点”:用分层偏好蒸馏(Hierarchical Preference Distillation, HPD) 替代粗粒度RLHF,在真实对话系统中将「尊重」从抽象原则落地为可微、可测、可回滚的token级约束 你有没有遇到过这样的时刻? 深夜三点,用户在客服对话框里输入:“我已经连续三次被拒绝贷款,系统说‘基于综合评估’——可我连评估维度都不知道。” 模型回复:“感谢您的反馈!我们始终秉持公平、透明、负责任的原则服务每一位用户。” ——这句话本身没有语法错误,甚至通过了所有合规性检查;