今天的大语言模型能够解决奥数题、通过专业考试,甚至编写复杂的代码,但在实际应用中却常常“翻车”。这背后的原因是什么呢?
在姚顺雨加入腾讯后发布的首篇论文中,他对此现象提出了一个关键观点:
“当前AI与真正智能之间的鸿沟,不在于知识的多少,而在于学习的能力。一个装满知识却不会学习的AI,就像一个背了整本字典却不会写作的人,看似博学,实则僵化。”
这篇论文的标题为《CL-bench: A Benchmark for Context Learning》。
CL-bench是一个专门评测语言模型“上下文学习能力”的大规模基准测试集,其全称是Context Learning Benchmark。
它包含了500个复杂上下文场景、1899个任务和31607个评估标注点,所有内容均由各领域资深专家精心挑选。
这个基准的核心设计理念是挑选那些在模型预训练数据中不存在的难题,要求模型从提供的上下文中学习全新的知识才能解决。
这篇论文不仅揭示了当前AI的根本性缺陷,还构建了一个专属于AI的评价体系,对AI及其从业者具有重要意义。
从数据规模来看,CL-bench的每个上下文平均包含3.8个任务,最多可达12个任务。
更重要的是,在500个复杂上下文场景中,包含序列依赖性任务的场景占51.1%。这意味着,如果AI想要解决后面的任务,就必须先从前面的任务中得到正确的答案。这种多轮交互设计极大地增加了难度。
单任务标注平均需领域专家20小时,每个任务平均配备16.6个评估标注项,从事实正确性、计算准确性、程序正确性、内容完整性和格式合规性等多个维度进行严格验证。
CL-bench的考核重点不是AI记住了多少知识,而是它能否像人类一样,拿到新材料后快速学会并正确使用。
这些任务有一个共同点:AI必须靠临场发挥才能通过考试。
预训练时学到的知识在这里用处不大,因为CL-bench里的知识要么是专家们新编的,要么是现实世界中极其小众的内容。
那么如何保证CL-bench里的新知识是模型原来就没有的呢?
论文通过消融实验验证了这一点。在不提供上下文的情况下,所有被测模型只能解决不到1%的任务。这充分证明了任务对上下文的依赖性。
CL-bench将上下文学习场景分为四大类别,每类对应不同的认知要求:
领域知识推理(Domain Knowledge Reasoning):涵盖金融、医疗、人文、法律咨询、生活方式、管理和科学七个子领域。
上下文提供专业领域知识,如虚构的法律体系、创新的金融工具或小众专业知识。模型需要学习并应用这些知识进行推理。
规则系统应用(Rule System Application):包括游戏机制、数学形式体系、编程语法等五个子类。
上下文提供明确定义的规则系统,模型必须理解并严格遵守这些规则。
程序性任务执行(Procedural Task Execution):分为教学程序、操作程序和工作流编排三类。
上下文提供复杂的操作流程或工作流程。模型需要学习并正确执行这些程序。
经验发现与模拟(Empirical Discovery & Simulation):是最具挑战性的类别。
与前三类强调演绎推理不同,这一类要求归纳推理。从大量数据中发现潜在规律或在虚拟环境中进行推理和决策。
这四类场景基本覆盖了人类在现实工作中遇到的主要学习情境,而CL-bench将这些真实场景引入了评测体系。
CL-bench的评估体系之严格超出想象。
16.6个评估标注项意味着每个细节都要对。这就像做数学题,你不仅要答案对,步骤也要对,格式还要对。
这些标准会从六个角度检查AI的答案。
事实对不对?比如AI说这个虚构国家的宪法第3条规定了什么,得和上下文里写的一模一样才算对。
这套评分系统最狠的地方在于,只有所有标准全部通过,任务才算完成。只要有一个标准没过,整个任务就算失败。
无可置疑的是,CL-bench填补了现有评测体系的关键空白。
论文还发现了一些反直觉的现象。例如,GPT-5.2的表现反而比GPT-5.1差5.6%。
这说明模型的版本迭代并不总是带来全面提升。某些能力的优化可能以牺牲其他能力为代价。
本文由主机测评网于2026-06-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260648248.html