大模型性能评测之数星星

文档摘要

大模型性能评测之数星星导入大海捞针NeedleInAHaystack已经成为评测大模型长文本能力的基本方法，鹅厂的MLPD实验室整了个花活，用小企鹅数星星的方法测试大模型的长文本能力. 鹅厂就是小企鹅数星星，要是达摩院会不会是平头哥数眼镜蛇数星星任务简述在一项研究中，为了评估语言模型处理长文本和长距离依赖关系的能力，研究人员设计了一个测试，其中文本长度逐渐增加，直至最大长度达到128,000个字符。实验中，研究人员选用了中国古典名著《红楼梦》作为基础文本，并在其中随机插入了特定格式的句子——“小企鹅数了x颗星星”，这里的x是一个变化的数字。研究人员将整段文本划分为N个部分，并在这些部分中插入了M个上述格式的句子。