新方法“数星星”挑战“大海捞针”测试!

科技动态 2024-04-02 09:13 阅读:

最近,腾讯MLPD实验室推出了一种全新的测试方法——“数星星”,用来挑战传统的“大海捞针”测试。这种方法更注重对模型处理长依赖关系能力的考察,使评估更加全面精准。

在“数星星”测试中,研究人员选择了一段长文本作为上下文,逐渐增加长度,最大可达128k。然后,根据不同的测试难度需求,文本被划分成N段,并插入M个包含“星星”的句子。

实验中,研究人员选择了《红楼梦》作为上下文文本,插入了类似“小企鹅数了x颗星星”的句子,每个句子中的x都不相同。模型需要找到所有这样的句子,并以JSON格式输出其中的数字,只输出数字。

与“大海捞针”测试不同,“数星星”要求模型找到所有星星才能答对问题,体现出更为精准的长文本能力。在测试中,GPT-4和Kimi Chat表现出了强大的长文本能力,但在不同实验条件下各有胜负。

GPT-4和Kimi在“数星星”测试中的表现也有所不同。在“星星”数量和文本粒度为32时,GPT-4的准确率达到了96.8%,而Kimi为86.4%。随着“星星”数量增加到64颗,Kimi的准确率超过了GPT-4。不同的颗粒度也会影响模型的表现。

研究人员发现,模型在递增的“星星”数量下会“偷懒”,因此他们重新进行了测试。结果显示,GPT-4和Kimi的表现都有所下降,但仍保持在60%以上的准确率。

这种新方法的准确性可能需要时间检验,但无疑为大模型的研究带来了新的视角。对于大模型长语境处理能力和性能的了解还不够充分,而“数星星”测试或许能帮助我们更好地了解这些模型的表现。

在这个充满魔幻的大模型研究领域,我们还有很多模型的测试成绩等待探索。如果你对这些模型的表现感兴趣,不妨关注一下论文地址和GitHub链接。愿我们能更深入地了解大模型的奥秘!