TinyEval


文档摘要

TinyEval 手搓LLM评测系统直播:直播链接 下面我会带领大家一步一步实现一个简单的LLM评测框架,该框架是一个双阶段的评测体系,我们称之为 ,包含了 通用评测的核心功能,支持生成式、判别式、选则式评测问题,框架主要包含 与 部分,目的是为了帮助大家更好的力即LLM评测的原理与实现。 1.项目的Motivation是什么? 初入 大门,你是否有类似的困惑: 各个模型的评测指标五花八门?小白初学者看不懂,难以学习? 评测 不会选,除了 , 想不到其他的 ? 想让 做选择题,但是模型输出了一大堆,如何评价选择能力? 模型五花八门,垂域任务也五花八门。除了 之外,如何对个性化的任务提供有说服力的定量性能指标? So, 本项目将逐个为你解开上述的困惑! 2.Eval都包含哪些流程?


发布者: 作者: 转发
评论区 (0)
U