书生·浦语(InternLM)-openLesson-6

文档摘要

书生·浦语(InternLM)-openLesson-6 “这是实战营的最后一课了。好耶！” -> 我 OpenCompass 大模型评测 Alt text 开源大语言模型课程笔记/Lesson6-Bg-Pic-1.webp) Introduction 我们需要认真考虑三个问题：为什么需要评测？我们需要测什么？怎么样测试大语言模型？ ① 为什么需要评测？ Alt text 开源大语言模型课程笔记/Lesson6-Bg-Pic-2.webp) 评测包括了“模型选型”、“模型能力提升”以及“真实应用场景的效果评测”。对于不同的模型，我们需要使用恒定统一的标准进行测量。这样可以让用户客观了解模型的优劣；让开发者掌握模型的边界属性；让管理机构减少大模型带来的社会风险；