第 11 章 上下文截断与压缩——主动管理每一轮的信息预算 在上一章中,我们看到了 GA 如何通过分层记忆管理跨任务的知识——只注入索引,按需加载详情。但即使有了记忆分层,单次任务内的对话依然会越来越长:每一轮工具调用都会返回新的数据,推理过程会产生新的思考记录,历史轮次不断累积。 许多 Agent 框架选择依赖扩展的上下文窗口(高达 1M token),假设更多上下文意味着更好的推理。但实践表明,这种做法不仅成本高昂,还会引入更多幻觉。论文将当前模型在不产生幻觉的前提下能有效利用的上下文上限称为无幻觉上下文长度(hallucination-free context length),其量级大约比名义窗口小一个数量级。