第九章 评估(上)——存在一个简单的正确答案时 在过去的章节里,我们向你展示了如何借助 LLM 构建应用程序,包括评估输入,处理输入,以及在呈现结果给用户之前进行最后的结果检查。然而,在构建出这样的系统后,我们应如何确知其运行状况呢?更甚者,当我们将其部署并让用户开始使用之后,我们又该如何追踪其表现,发现可能存在的问题,并持续优化它的回答质量呢?在本章里,我们将向你分享一些评估LLM输出的最佳实践。 构建基于LLM的应用程序与构建传统的监督学习应用程序有所不同。因为你可以快速地构建出基于LLM的应用程序,所以评估通常不从测试集开始。相反,你会逐渐地建立起一个测试样例的集合。 在传统的监督学习环境下,你需要收集训练集、开发集,或者留出交叉验证集,在整个开发过程中都会用到它们。