3.2.3.1 码本训练与失真控制 3.2.3.1 码本训练与失真控制:当K-means在PQ中“学歪了”——一个被忽略的初始化陷阱与可复现的失真压制方案 你有没有试过这样的情形? 模型训练完毕,向量检索延迟降到了12ms,召回率曲线看起来光洁如镜;可一跑真实业务查询——比如“找和这张无人机俯拍农田图最相似的10张遥感影像”,top-10里竟有7张是城市建筑?再查码本中心点,发现第3个子空间的码本严重偏斜:4096个码字,有3821个挤在原点附近,剩下175个散落在边缘,像被飓风扫过的麦田——整齐,但毫无意义。 这不是数据分布异常,不是特征提取失败,甚至不是量化比特数设低了。这是码本训练本身在说谎。而谎言的起点,往往藏在一行被所有人跳过的代码里: 初始化。 一、我们到底在让谁“学”?