智东西最新报道,腾讯混元官网正式上线了姚顺雨团队最新成果——一个专门评测大语言模型能否从上下文(Context)中学习新知识并正确应用的基准工具CL-bench。
这是姚顺雨加入腾讯混元担任首席AI科学家后,其团队首次发布的研究成果,标志着腾讯混元技术博客的首次公开。
大模型与人类在解决问题时关键区别在于,大模型只能依赖预训练阶段的静态记忆,而人类可以实时根据现场情况完成任务。腾讯混元研究团队实测发现,当前最先进(SOTA)的模型几乎都不会从上下文中学习,表现最好的GPT-5.1(high)任务成功率也仅有23.7%。
基于此,该团队打造的CL-bench核心目标是:要求模型在解决每个任务时,都必须从上下文中学习模型预训练中不存在的新知识,并正确应用。
腾讯混元技术博客地址:https://hy.tencent.com/research
项目主页:www.clbench.com
近年来,大语言模型取得了显著进步,能够解决奥数难题、推演复杂编程逻辑,甚至通过专业资格考试。然而,这些模型在真实世界中的应用仍存在挑战,因为它们主要依赖预训练阶段的静态记忆。
人类在执行任务时可以实时从环境中学习,而大语言模型则依赖“参数化知识”。因此,目前优化的模型擅长处理自己“已知”的事物,但用户需要的是模型解决依赖于动态变化上下文的任务。
为了改变这一现状,腾讯混元研究团队构建了专门评测大语言模型能否从上下文中学习新知识并正确应用的基准工具CL-bench。
CL-bench包含由专家制作的500个复杂上下文、1899个任务和31607个验证标准。其要求模型在解决每个任务时,都必须从上下文中学习到新知识并正确应用。
...(此处省略部分非核心段落)...
...本文由主机测评网于2026-06-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260648195.html