6.3.2 数据集构建与自动化测试 在构建基于大语言模型(LLM)的应用,尤其是检索增强生成(RAG)系统的征途中,我们常常面临一个根本性的挑战:如何科学、客观地衡量系统的性能?当我们调整一个参数、更换一个嵌入模型或是优化检索策略时,我们凭什么说“新版本更好”?这绝非简单的“感觉良好”所能回答,它呼唤着一种严谨的工程化方法。在LlamaIndex的整体框架下,这种方法的基石,正是“数据集构建与自动化测试”。它将评估从一门主观的艺术,转变为一门客观的、可度量的科学。 这一章节,我们将深入LlamaIndex评估体系的腹地,探讨如何为RAG系统打造一把精准的“标尺”,以及如何建立一个自动化的“质检流水线”,确保我们的应用在迭代演进中始终朝着正确的方向前进。