新方法“数星星”挑战“大海捞针”测试！-金财在线

最近，腾讯MLPD实验室推出了一种全新的测试方法——“数星星”，用来挑战传统的“大海捞针”测试。这种方法更注重对模型处理长依赖关系能力的考察，使评估更加全面精准。

在“数星星”测试中，研究人员选择了一段长文本作为上下文，逐渐增加长度，最大可达128k。然后，根据不同的测试难度需求，文本被划分成N段，并插入M个包含“星星”的句子。

实验中，研究人员选择了《红楼梦》作为上下文文本，插入了类似“小企鹅数了x颗星星”的句子，每个句子中的x都不相同。模型需要找到所有这样的句子，并以JSON格式输出其中的数字，只输出数字。

与“大海捞针”测试不同，“数星星”要求模型找到所有星星才能答对问题，体现出更为精准的长文本能力。在测试中，GPT-4和Kimi Chat表现出了强大的长文本能力，但在不同实验条件下各有胜负。

GPT-4和Kimi在“数星星”测试中的表现也有所不同。在“星星”数量和文本粒度为32时，GPT-4的准确率达到了96.8%，而Kimi为86.4%。随着“星星”数量增加到64颗，Kimi的准确率超过了GPT-4。不同的颗粒度也会影响模型的表现。

研究人员发现，模型在递增的“星星”数量下会“偷懒”，因此他们重新进行了测试。结果显示，GPT-4和Kimi的表现都有所下降，但仍保持在60%以上的准确率。

这种新方法的准确性可能需要时间检验，但无疑为大模型的研究带来了新的视角。对于大模型长语境处理能力和性能的了解还不够充分，而“数星星”测试或许能帮助我们更好地了解这些模型的表现。

在这个充满魔幻的大模型研究领域，我们还有很多模型的测试成绩等待探索。如果你对这些模型的表现感兴趣，不妨关注一下论文地址和GitHub链接。愿我们能更深入地了解大模型的奥秘！

新方法“数星星”挑战“大海捞针”测试！