第六章：第一节评估常用工具

文档摘要

第一节评估常用工具了解了评估的基本原理之后，来介绍几个RAG评估工具，它们各自代表了不同的设计哲学和应用场景。一、LlamaIndex Evaluation 是深度集成于LlamaIndex框架内的评估模块，专为使用该框架构建的RAG应用提供无缝的评估能力。作为RAG开发框架的原生组件，其核心定位是为开发者在开发、调试和迭代周期中提供快速、灵活的嵌入式评估解决方案。它强调与开发流程的紧密结合，允许开发者在构建过程中即时验证和对比不同RAG策略的性能[^1]。适用场景：对于深度使用框架构建RAG应用的开发者而言，其内置评估模块是无缝集成的首选，提供了一站式的开发与评估体验。 1.1 核心理念与工作流的评估理念是利用LLM作为“裁判”，以自动化的方式对RAG系统的各个环节进行打分。