第一节:评估介绍 构建RAG系统后,下一个关键问题是:如何科学地评估其表现? 评估之所以关键,是因为它回答了RAG开发与应用中的一系列核心问题: 对于开发者: 如何量化地追踪、迭代并提升RAG应用的性能?当系统出现“幻觉”或答非所问时,如何快速定位问题根源? 对于用户或决策者: 面对两个不同的RAG应用,如何客观地评判孰优孰劣? 本节将探讨RAG评估的理念与方法,并围绕 “RAG三元组(RAG Triad)” 展开。 RAG Triad 一、RAG评估三元组 该架构包含以下三个维度,并在 TruLens [^1]等工具中有深入的应用: (1)上下文相关性 (Context Relevance) 评估目标: 检索器(Retriever)的性能。