10. 评估（下）Evaluation-part2

文档摘要

第十章评估（下）——当不存在一个简单的正确答案时在上一章中，我们探索了如何评估 LLM 模型在有明确正确答案的情况下的性能，并且我们学会了编写一个函数来验证 LLM 是否正确地进行了分类列出产品。然而，如果我们想要使用 LLM 来生成文本，而不仅仅是用于解决分类问题，我们又应该如何评估其回答准确率呢？在本章，我们将讨论如何评估LLM在这种应用场景中的输出的质量。一、运行问答系统获得一个复杂回答我们首先运行在之前章节搭建的问答系统来获得一个复杂的、不存在一个简单正确答案的回答：关于SmartX Pro手机和FotoSnap DSLR相机的信息： SmartX Pro手机（型号：SX-PP10）是一款功能强大的智能手机，拥有6.