9. 评估（上） Evaluation-part1

文档摘要

第九章评估（上）——存在一个简单的正确答案时在过去的章节里，我们向你展示了如何借助 LLM 构建应用程序，包括评估输入，处理输入，以及在呈现结果给用户之前进行最后的结果检查。然而，在构建出这样的系统后，我们应如何确知其运行状况呢？更甚者，当我们将其部署并让用户开始使用之后，我们又该如何追踪其表现，发现可能存在的问题，并持续优化它的回答质量呢？在本章里，我们将向你分享一些评估LLM输出的最佳实践。构建基于LLM的应用程序与构建传统的监督学习应用程序有所不同。因为你可以快速地构建出基于LLM的应用程序，所以评估通常不从测试集开始。相反，你会逐渐地建立起一个测试样例的集合。在传统的监督学习环境下，你需要收集训练集、开发集，或者留出交叉验证集，在整个开发过程中都会用到它们。