10. 评估(下)Evaluation-part2


文档摘要

第十章 评估(下)——当不存在一个简单的正确答案时 在上一章中,我们探索了如何评估 LLM 模型在 有明确正确答案 的情况下的性能,并且我们学会了编写一个函数来验证 LLM 是否正确地进行了分类列出产品。 然而,如果我们想要使用 LLM 来生成文本,而不仅仅是用于解决分类问题,我们又应该如何评估其回答准确率呢?在本章,我们将讨论如何评估LLM在这种应用场景中的输出的质量。 一、运行问答系统获得一个复杂回答 我们首先运行在之前章节搭建的问答系统来获得一个复杂的、不存在一个简单正确答案的回答: 关于SmartX Pro手机和FotoSnap DSLR相机的信息: SmartX Pro手机(型号:SX-PP10)是一款功能强大的智能手机,拥有6.


发布者: 作者: 转发
评论区 (0)
U