当前位置:首页 > 科技资讯 > 正文

腾讯混元发布大模型上下文学习新基准CL-bench

智东西最新报道,腾讯混元官网正式上线了姚顺雨团队最新成果——一个专门评测大语言模型能否从上下文(Context)中学习新知识并正确应用的基准工具CL-bench

这是姚顺雨加入腾讯混元担任首席AI科学家后,其团队首次发布的研究成果,标志着腾讯混元技术博客的首次公开。

腾讯混元发布大模型上下文学习新基准CL-bench 大语言模型 上下文学习 CL-bench 腾讯混元 第1张

大模型与人类在解决问题时关键区别在于,大模型只能依赖预训练阶段的静态记忆,而人类可以实时根据现场情况完成任务。腾讯混元研究团队实测发现,当前最先进(SOTA)的模型几乎都不会从上下文中学习,表现最好的GPT-5.1(high)任务成功率也仅有23.7%

腾讯混元发布大模型上下文学习新基准CL-bench 大语言模型 上下文学习 CL-bench 腾讯混元 第2张

基于此,该团队打造的CL-bench核心目标是:要求模型在解决每个任务时,都必须从上下文中学习模型预训练中不存在的新知识,并正确应用。

腾讯混元技术博客地址:https://hy.tencent.com/research

项目主页:www.clbench.com

01.大模型迈向灵活学习:新基准包含500个复杂上下文任务

近年来,大语言模型取得了显著进步,能够解决奥数难题、推演复杂编程逻辑,甚至通过专业资格考试。然而,这些模型在真实世界中的应用仍存在挑战,因为它们主要依赖预训练阶段的静态记忆。

人类在执行任务时可以实时从环境中学习,而大语言模型则依赖“参数化知识”。因此,目前优化的模型擅长处理自己“已知”的事物,但用户需要的是模型解决依赖于动态变化上下文的任务。

为了改变这一现状,腾讯混元研究团队构建了专门评测大语言模型能否从上下文中学习新知识并正确应用的基准工具CL-bench。

腾讯混元发布大模型上下文学习新基准CL-bench 大语言模型 上下文学习 CL-bench 腾讯混元 第3张

CL-bench包含由专家制作的500个复杂上下文、1899个任务和31607个验证标准。其要求模型在解决每个任务时,都必须从上下文中学习到新知识并正确应用。

...(此处省略部分非核心段落)...

...