大模型性能评测之数星星


文档摘要

大模型性能评测之数星星 导入 大海捞针NeedleInAHaystack已经成为评测大模型长文本能力的基本方法,鹅厂的MLPD实验室整了个花活,用小企鹅数星星的方法测试大模型的长文本能力. 鹅厂就是小企鹅数星星,要是达摩院会不会是平头哥数眼镜蛇 数星星任务简述 在一项研究中,为了评估语言模型处理长文本和长距离依赖关系的能力,研究人员设计了一个测试,其中文本长度逐渐增加,直至最大长度达到128,000个字符。 实验中,研究人员选用了中国古典名著《红楼梦》作为基础文本,并在其中随机插入了特定格式的句子——“小企鹅数了x颗星星”,这里的x是一个变化的数字。 研究人员将整段文本划分为N个部分,并在这些部分中插入了M个上述格式的句子。


发布者: 作者: 转发
评论区 (0)
U