【导读】Feeling AI凭借CodeBrain-1在权威榜单Terminal-Bench 2.0中强势突围,紧追OpenAI最新旗舰,荣获全球第二。这一成就不仅打破了美系巨头的垄断,更彰显了中国AI在复杂任务规划与自主编码领域的顶尖工程能力。
在全球科技界,尤其是中国农历春节的前夜,竞争氛围愈发紧张。Anthropic祭出了Claude Opus 4.6,而OpenAI则以GPT-5.3-Codex强势回应。
表面上是一场「王座之争」,但实则竞争的底层逻辑已悄然改写。全球大模型竞赛已从实验室的「参数博弈」演变为实战的「进化竞争」。
这一次,巨头们不再沉迷于虚幻的跑分数据,而是将焦点锁定在架构的严谨性和自主工作流的长效续航上。能否在真实商业世界中「破局」,成为唯一的衡量标准。
在硬核指标的正面交锋中,OpenAI和Anthropic均选择Terminal-Bench 2.0作为实力背书。Opus 4.6在Agentic Terminal Coding Task上以65.4%的胜率展现了卓越的智能体编码能力;而Sam Altman凭借5.3-Codex+ Simple Codex的组合创下的77.3%(75.1%)高分,自诩为编码性能之巅。
NVIDIA首席科学家Jim Fan曾言:真实的终端环境是AI的「魔鬼训练场」。在闭环环境中自我进化,已成为衡量模型工程能力的终极标尺。
令人振奋的是,在这一权威赛道上,中国的AI初创团队Feeling AI异军突起。其自研的CodeBrain-1在GPT-5.3-Codex底座模型的加持下,以72.9%(70.3%)的惊艳战绩跃升全球榜单第二,成为前十强中唯一的中国新锐。
5天前,Feeling AI团队发布MemBrain1.0,在多项主流记忆基准评测中拿下全新SOTA,反超MemOS、Zep和EverMemOS等记忆系统和全上下文模型。在KnowMeBench Level III两个难度等级最高的评测中更是比现有评测结果大幅提升超300%。
在AI技术圈和资本押注的新风口——Agentic Memory方向,Feeling AI率先打出第一张牌。
强大的记忆能力以及适配模型原生的层级化记忆系统,意味着Agentic AI正从模型能力逐步走向用户体验层面的范式跃迁。
紧随MemBrain 1.0的发布,Feeling AI又推出了第二张王牌——CodeBrain。作为具备动态规划与策略调整能力的「进化大脑」,CodeBrain-1迅速跻身权威基准Terminal-Bench2.0榜单全球第二,仅次于OpenAI 5.3-Codex的官配Simple Codex。
Feeling AI一直强调动态交互是世界模型通向AGI的终极拼图。其原创的跨模态分层架构提出了三层核心能力——负责理解、记忆与规划的InteractBrain,负责能力执行的InteractSkill,以及负责渲染呈现的InteractRender,共同构成了其技术护城河。
目前已推出的MemBrain与CodeBrain都属于InteractBrain核心层,精准定位在复杂动态交互场景下的深度理解与长程规划。这两项在全球拿下极具说服力的成绩并非偶然,而是早有布局。
这也进一步解释了无论是用于Agentic Memory的MemBrain1.0还是用于确保模型任务规划和执行成功率的CodeBrain-1,其算法核心关注点都集中在服务于复杂「动态交互」场景的能力。
OpenAI在其官网技术博客中明确将Simple Codex定义为「针对长程软件工程任务的最优解」。模型和Agent框架的良好组合也许将成为未来大模型商业落地的标准形态。
一个能驾驭全球顶尖模型的中国框架,正是AI时代最核心的智能中枢。
Terminal-Bench官方评测网站最新排名显示,CodeBrain-1仅次于Open AI的Simple Codex(GPT-5.3-Codex),Factory的Droid使用Anthropic最新基模Claude Opus 4.6排名第三。榜单上还有其他知名的Agent或机构,如Warp、Coder、Google、Princeton等。
(官网截图)
Terminal Bench覆盖的任务类型非常广泛,包括复杂的系统操作和需要在真实终端环境中完成的编码任务。CodeBrain-1的核心关注点在于「代码能否被正确写出并运行」。
此外,在Token消耗方面,CodeBrain-1也展现出了不俗的表现,可持续降低用户成本。
CodeBrain-1在Terminal-Bench 2.0上的强势表现还不仅体现在真实命令行终端(CLI)环境下的端到端任务执行能力。
更重要的是,团队赋予了它更高阶的能力——会动态调整计划与策略的「大脑」。它通过优化任务的执行逻辑和错误反馈机制,显著提升了模型在真实终端环境下的操作成功率。
Terminal-Bench是由斯坦福大学与Laude Institute联合打造的开源基准,被公认为AI智能体在真实命令行(CLI)环境下端到端执行能力的「金标准」。
CodeBrain-1首次亮相便一举夺得全球第二,其含金量不言而喻。
本文由主机测评网于2026-07-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260748720.html