3.2.3.1 码本训练与失真控制

文档摘要

3.2.3.1 码本训练与失真控制 3.2.3.1 码本训练与失真控制：当K-means在PQ中“学歪了”——一个被忽略的初始化陷阱与可复现的失真压制方案你有没有试过这样的情形？模型训练完毕，向量检索延迟降到了12ms，召回率曲线看起来光洁如镜；可一跑真实业务查询——比如“找和这张无人机俯拍农田图最相似的10张遥感影像”，top-10里竟有7张是城市建筑？再查码本中心点，发现第3个子空间的码本严重偏斜：4096个码字，有3821个挤在原点附近，剩下175个散落在边缘，像被飓风扫过的麦田——整齐，但毫无意义。这不是数据分布异常，不是特征提取失败，甚至不是量化比特数设低了。这是码本训练本身在说谎。而谎言的起点，往往藏在一行被所有人跳过的代码里：初始化。一、我们到底在让谁“学”？