当前位置：首页 > 科技资讯 > 正文

Feeling AI CodeBrain-1强势登榜，中国AI工程能力跃居世界前列

主机测评网
科技资讯
2026-07-05
464

【导读】Feeling AI凭借CodeBrain-1在权威榜单Terminal-Bench 2.0中强势突围，紧追OpenAI最新旗舰，荣获全球第二。这一成就不仅打破了美系巨头的垄断，更彰显了中国AI在复杂任务规划与自主编码领域的顶尖工程能力。

在全球科技界，尤其是中国农历春节的前夜，竞争氛围愈发紧张。Anthropic祭出了Claude Opus 4.6，而OpenAI则以GPT-5.3-Codex强势回应。

表面上是一场「王座之争」，但实则竞争的底层逻辑已悄然改写。全球大模型竞赛已从实验室的「参数博弈」演变为实战的「进化竞争」。

这一次，巨头们不再沉迷于虚幻的跑分数据，而是将焦点锁定在架构的严谨性和自主工作流的长效续航上。能否在真实商业世界中「破局」，成为唯一的衡量标准。

在硬核指标的正面交锋中，OpenAI和Anthropic均选择Terminal-Bench 2.0作为实力背书。Opus 4.6在Agentic Terminal Coding Task上以65.4%的胜率展现了卓越的智能体编码能力；而Sam Altman凭借5.3-Codex+ Simple Codex的组合创下的77.3%（75.1%）高分，自诩为编码性能之巅。

NVIDIA首席科学家Jim Fan曾言：真实的终端环境是AI的「魔鬼训练场」。在闭环环境中自我进化，已成为衡量模型工程能力的终极标尺。

令人振奋的是，在这一权威赛道上，中国的AI初创团队Feeling AI异军突起。其自研的CodeBrain-1在GPT-5.3-Codex底座模型的加持下，以72.9%（70.3%）的惊艳战绩跃升全球榜单第二，成为前十强中唯一的中国新锐。

Feeling AI CodeBrain-1强势登榜，中国AI工程能力跃居世界前列 CodeBrain-1 Agentic Terminal-Bench 2.0 第1张

刚拿下Agentic Memory SOTA，Feeling AI再获佳绩

5天前，Feeling AI团队发布MemBrain1.0，在多项主流记忆基准评测中拿下全新SOTA，反超MemOS、Zep和EverMemOS等记忆系统和全上下文模型。在KnowMeBench Level III两个难度等级最高的评测中更是比现有评测结果大幅提升超300%。

在AI技术圈和资本押注的新风口——Agentic Memory方向，Feeling AI率先打出第一张牌。

强大的记忆能力以及适配模型原生的层级化记忆系统，意味着Agentic AI正从模型能力逐步走向用户体验层面的范式跃迁。

紧随MemBrain 1.0的发布，Feeling AI又推出了第二张王牌——CodeBrain。作为具备动态规划与策略调整能力的「进化大脑」，CodeBrain-1迅速跻身权威基准Terminal-Bench2.0榜单全球第二，仅次于OpenAI 5.3-Codex的官配Simple Codex。

Feeling AI一直强调动态交互是世界模型通向AGI的终极拼图。其原创的跨模态分层架构提出了三层核心能力——负责理解、记忆与规划的InteractBrain，负责能力执行的InteractSkill，以及负责渲染呈现的InteractRender，共同构成了其技术护城河。

目前已推出的MemBrain与CodeBrain都属于InteractBrain核心层，精准定位在复杂动态交互场景下的深度理解与长程规划。这两项在全球拿下极具说服力的成绩并非偶然，而是早有布局。

这也进一步解释了无论是用于Agentic Memory的MemBrain1.0还是用于确保模型任务规划和执行成功率的CodeBrain-1，其算法核心关注点都集中在服务于复杂「动态交互」场景的能力。

OpenAI在其官网技术博客中明确将Simple Codex定义为「针对长程软件工程任务的最优解」。模型和Agent框架的良好组合也许将成为未来大模型商业落地的标准形态。

一个能驾驭全球顶尖模型的中国框架，正是AI时代最核心的智能中枢。

CodeBrain-1：动态调整计划与策略的「大脑」

Terminal-Bench官方评测网站最新排名显示，CodeBrain-1仅次于Open AI的Simple Codex（GPT-5.3-Codex），Factory的Droid使用Anthropic最新基模Claude Opus 4.6排名第三。榜单上还有其他知名的Agent或机构，如Warp、Coder、Google、Princeton等。

Feeling AI CodeBrain-1强势登榜，中国AI工程能力跃居世界前列 CodeBrain-1 Agentic Terminal-Bench 2.0 第2张（官网截图）

Terminal Bench覆盖的任务类型非常广泛，包括复杂的系统操作和需要在真实终端环境中完成的编码任务。CodeBrain-1的核心关注点在于「代码能否被正确写出并运行」。

Useful Context Searching：只使用「真正有用」的上下文。在复杂任务中，信息不是越多越好，而是是否相关。减少噪音可以有效避免LLM的幻觉问题。CodeBrain-1会根据当前任务需求和已有Code Base索引，充分利用LSP (Language Server Protocol)的功能，提高关联信息的检索效率，有效辅助Code Generation的过程。
Validation Feedback：让失败真正变成信息。CodeBrain-1可以从LSP Diagnostics当中高效定位错误并补充相关代码和文档，有效缩减Generate->Validate的循环过程。
团队从Terminal Bench中筛选出一个更聚焦的子集，共47条任务，均可以使用单一程序语言（Python）完成。在这一子集中，CodeBrain-1表现出了稳定而一致的完成能力：关联代码和文档检索更高效；在代码检查和验证失败时，能更快定位问题。

Feeling AI CodeBrain-1强势登榜，中国AI工程能力跃居世界前列 CodeBrain-1 Agentic Terminal-Bench 2.0 第3张此外，在Token消耗方面，CodeBrain-1也展现出了不俗的表现，可持续降低用户成本。