随着2025年接近尾声,谷歌在人工智能领域交出了一份沉甸甸的答卷。
过去因发明Transformer却未能抢占先机而饱受诟病,谷歌一度被贴上“大模型掉队”的标签。然而,2025年,谷歌凭借一系列具有里程碑意义的产品发布,成功实现了逆袭。它向全球展示了AI的全新定位:从单纯的聊天机器人,进化为能够编写代码、从事科研、甚至解决前沿科学难题的“协作伙伴”。
不妨看看Demis Hassabis在社交平台晒出的年度成果清单:Gemini 3、Genie 3、Veo 3、Nano Banana……可谓是硕果累累。
与此同时,谷歌官方博客发布了年度研究进展总结,由Jeff Dean、Demis Hassabis和James Manyika联合撰写,全面回顾了2025年的技术突破。
官方博文链接:https://blog.google/technology/ai/2025-research-breakthroughs/#ai-models
在深入探讨之前,让我们先快速盘点一下谷歌今年的几项核心利器。
以下是根据官方博文整理的详细技术盘点:
今年3月,Gemini 2.5的发布为全年的技术演进奠定了基础。到了11月,Gemini 3正式亮相,被公认为谷歌当前的巅峰之作。在模型推理、多模态理解和运行效率等方面,谷歌实现了多次实质性飞跃。
作为目前谷歌性能最强的模型,Gemini 3 Pro在逻辑推理方面表现尤为亮眼。它不仅迅速攀升至LMArena排行榜榜首,还在旨在评估AI是否达到人类思考水平的严苛测试——Humanity’s Last Exam中取得了突破性成绩。在数学领域,它以23.4%的准确率刷新了MathArena Apex的纪录。
Gemini 3在多项关键AI基准测试中均处于领先地位。
相关链接:https://blog.google/products/gemini/gemini-3/
紧随其后,12月谷歌推出了面向开发者与企业级市场的Gemini 3 Flash。这款模型延续了谷歌“后浪推前浪”的策略:新一代Flash模型在性能上力求超越前一代Pro模型。
数据显示,Gemini 3 Flash的综合质量已超越今年3月发布的Gemini 2.5 Pro,同时成本大幅下降,延迟表现显著优化。这种高性价比策略旨在让复杂推理任务以更快速度、更低门槛进入实际应用。
Gemini 3 Flash价格与基准对比表。
相关链接:https://blog.google/products/gemini/gemini-3-flash/
除了闭源的Gemini系列,谷歌在开源领域也频频发力。Gemma家族今年实现了从纯文本到多模态的转型。
通过扩大上下文窗口、增强多语言支持以及优化单GPU/TPU运行效率,Gemma 3已成为开发者在本地部署高性能AI的首选工具之一。特别是8月发布的Gemma 3 270M,以极小的参数规模实现了超高效率,体现了谷歌在边缘AI领域的技术积累。
相关链接:https://developers.googleblog.com/en/introducing-gemma-3-270m/
2025年见证了AI从“单一工具”向“核心效能”的跨越。谷歌通过在全线产品中注入强大的Agentic能力,推动AI从辅助角色转变为实用型基础设施,重新定义了人机协作模式。
在软件开发领域,谷歌不再满足于提供辅助编码工具,而是致力于构建能与开发者深度协作的智能体系统。11月发布的Gemini 3展现了出色的代码生成与逻辑理解能力。同期推出的Google Antigravity更标志着AI辅助开发进入新纪元——它将开发流程从传统的“工具辅助”升级为“智能体协作”,极大释放了开发者的创造力与生产力。
相关链接:https://antigravity.google/blog/introducing-google-antigravity
这种进化同样清晰地体现在谷歌核心产品矩阵中,贯穿从硬件终端到信息检索的每一个环节:
3月,谷歌搜索迎来重大变革,通过扩展AI Overviews并引入全新的AI Mode,重塑了用户获取与处理信息的方式。
8月,备受瞩目的Pixel 10正式发布。得益于一系列AI原生功能的深度整合,它被誉为谷歌迄今最智能、最实用的手机终端。
在生产力与知识管理领域,年底的一系列更新将体验推至新高度。随着11月Gemini 3的底层赋能,Gemini App实现了智商与能力的双重飞跃。同月,NotebookLM重磅加入Deep Research功能,并支持更多类型的数据源,使其从单纯的笔记工具进化为能处理复杂信息流的专业级智能研究助手。
相关链接:https://blog.google/technology/google-labs/notebooklm-deep-research-file-types/
2025年是生成式媒体变革之年。谷歌通过发布一系列突破性模型和工具,涵盖视频、图像、音频及虚拟世界构建,赋予创作者前所未有的能力。
在视频生成领域,5月发布的Veo 3首次实现原生音频生成,结合同期升级的Music AI Sandbox,无论是脚步声、环境风声还是背景配乐,都能与画面动作完美同步,彻底终结了AI视频的“默片时代”。
10月的更新进一步推高了行业天花板。Veo 3.1版本不仅大幅提升了光影变化与物体碰撞的物理一致性,还与全新创意工具Flow深度整合。更重要的是,它强化了“首尾帧控制”功能,允许创作者精准指定视频的起点与终点,由AI补全中间过程,极大增强了叙事的可控性。
相关链接:https://developers.googleblog.com/introducing-veo-3-1-and-new-creative-capabilities-in-the-gemini-api/
在图像生成领域,随着5月Imagen 4的奠基,Nano Banana在今年大放异彩,其在匿名测试时便因表现优异而备受关注。8月,作为图像生成的重大升级,Nano Banana以其极高的指令遵循能力著称,解决了“文字生成图片”中细节丢失的问题。
而11月发布的Nano Banana Pro将体验推至新高度。作为系列旗舰版本,它首次引入“深度思考”模式,在绘图前进行逻辑推理。这不仅使其能精准还原极其复杂的Prompt构图,更实现了高保真文字渲染能力,无论是海报设计还是图表绘制都达到专业级水准。
“柏林”一词被巧妙融入城市街区建筑设计,横跨多栋建筑。
相关链接:https://blog.google/technology/ai/nano-banana-pro/
此外,Google Labs今年涌现出众多突破性实验:从将设计瞬间转化为代码的Stitch,到开发者的异步协作伙伴Jules,再到3D视频通信平台Google Beam,AI正从单纯的媒体生成工具,进化为重塑工作流的生产力核心。
2025年,谷歌在生命科学、医疗健康及数学逻辑等领域取得里程碑式突破,不仅深化了人类对生物遗传的理解,更在顶级智力竞赛中证明AI具备与人类顶尖水平相当的抽象推理能力。
首先看生命科学领域。上个月,AlphaFold迎来五周年纪念。自解决蛋白质结构预测难题五年来,该系统已为超过2亿个蛋白质预测了结构,助力全球300多万名研究人员加速科研进程。这一成就通过开放数据库彻底改变了结构生物学,并因其对生命科学的深远贡献荣获2024年诺贝尔化学奖。
此外,谷歌发布了基因组理解模型AlphaGenome,这是一个能同时处理多达1兆碱基对的高分辨率DNA序列模型。它通过统一分析多种生物调控模式,帮助科学家解读DNA中曾难以捉摸的非编码区域,为探寻遗传病因和开发新型疗法提供了全方位的生物集成开发环境。
再看医疗健康领域。谷歌研究院推出的DeepSomatic利用卷积神经网络,在肿瘤序列中以极高精度识别癌症相关遗传变异。该工具能处理来自主流测序平台的数据,帮助临床医生更准确锁定驱动癌症的特定变异,从而实现真正的精准医疗和个性化治疗。
在科学发现方面,谷歌发布了一款基于大模型的编程智能体——AlphaEvolve,专门用于寻找和验证理论计算机科学中的复杂组合结构。它在验证过程上实现了1万倍加速,成功协助科研人员收紧了优化问题的界限,标志着AI正从数据处理者转型为深度参与数学发现的科研合作者。
此外,谷歌推出了基于Gemini 2.0构建的多智能体协作系统——AI co-scientist,旨在模仿科学研究的逻辑流程。它能独立生成研究假设、设计实验方案并撰写研究提案,在生物医学等领域展现了显著缩短发现周期的潜力,成为科学家的虚拟实验室助手。
在代码与数学逻辑方面,谷歌也稳居第一梯队。进阶版Gemini 2.5 Deep Think在2025年国际大学生程序设计竞赛(ICPC)总决赛中达到金牌水平,12道题目中解出10道。第66届国际数学奥林匹克(IMO)中,Gemini Deep Think以35分(总分42分)的高分达到金牌表现,完美解决了6道难题中的5道。
不久前,谷歌创始人谢尔盖·布林在母校活动中坦言,这些年谷歌犯过不少错误,例如未能第一时间重视Transformer。但他们也做对了很多事情,比如对“计算”的持续投入。
首先,量子计算方面,他们的重大突破——Quantum Echoes(量子回声)算法在10月登上《Nature》杂志。该算法在量子处理器上首次实现了可验证的量子优越性,能以比最快超级计算机快13,000倍的速度解决特定问题,为药物研发、材料科学等领域的实际应用打开了新窗口。
相关链接:https://quantumai.google/static/site-assets/downloads/quantum-computation-molecular-geometry-via-nuclear-spin-echoes.pdf
这一进展得益于谷歌在量子计算领域的多年投入。今年,谷歌量子硬件首席科学家Michel Devoret和前量子人工智能硬件负责人John Martinis,因在量子计算方面的奠基性工作,与加州大学伯克利分校教授John Clarke共同获得诺贝尔物理学奖。至此,谷歌的诺奖得主已增至五位,在科技界极为罕见。
除了量子计算,谷歌今年在TPU方向的进展同样引人注目。今年4月,第七代TPU——Ironwood正式发布。它专为“推理时代”设计,每块芯片内存带宽提升至7.2 TB/s,单芯片显存容量达192GB。当每个pod扩展至9216块芯片时,可提供42.5 exaflops的AI算力,远超目前全球最快超级计算机El Capitan的1.7 exaflops。每块Ironwood芯片的峰值计算能力可达4614 TFLOPs。
谷歌透露,这款芯片的部分架构由自家AI模型AlphaChip辅助优化,大幅缩短了研发周期并优化了布局。
与英伟达GPU相比,这款新TPU拥有极致的能效比,在电力供应受限的数据中心里,谷歌能用同等电量跑出更多AI算力。此外,谷歌不将TPU视为单一芯片,而是一个名为Pod的整体,在超大规模集群(万卡级别)的布线复杂度和电力损耗上,TPU更具优势。(关于GPU和TPU的更多对比,参见《谷歌TPU杀疯了,产能暴涨120%、性能4倍吊打,英伟达还坐得稳吗?》)
目前,谷歌已计划到2027年实现年产500万颗TPU的目标。像Anthropic这样的AI巨头已预订超过100万颗TPU算力,这显示出谷歌正通过“自研芯片+云服务”的闭环,在AI硬件市场有力挑战英伟达的统治地位。
在这波具身智能发展浪潮中,谷歌始终扮演技术引领者角色,通过一系列研究将“大模型+机器人”体系化、可迭代化,并不断刷新行业上限。
前两年,他们通过RT-1和RT-2(Robotic Transformer)率先证明:大语言模型(LLM)的Transformer架构可直接用于输出机器人动作。
2025年,他们进一步将VLA模型推向极致。3月,他们推出Gemini Robotics,通过将视觉、语言和动作三种模态与物理控制系统深度融合,首次实现“感知-决策-动作”全闭环操作,能够直接根据视觉输入和语言指令生成相应的机械臂轨迹,无需像传统机器人那样进行繁琐的分步规划。
9月,Gemini Robotics 1.5问世,初步具备类似人类思考方式的规划行动能力。它通过两个模型的协作达成此目标:ER模型负责高层推理和决策,生成详细的行动方案;VLA模型负责感知和具体执行,并在执行过程中进行细粒度自我推理校正。这种架构旨在结合两者优势,使机器人既能深思熟虑又能动作精准。
此外,他们成功将大模型“塞进”边缘设备并开放生态。2025年6月发布的Gemini Robotics On-Device,首次让低延迟的VLA模型完全离线运行在机械臂和人形机器人上。他们还配套推出Gemini Robotics SDK,开发者通过50~100次演示就能微调出可迁移的新技能。
提及世界模型,谷歌的Genie 3无疑是今年的绝对亮点,被誉为世界模型的新高峰(参见《震撼,世界模型首次超真实模拟真实世界:谷歌Genie 3昨晚抢了OpenAI风头》)。
这不仅因为Genie 3画面更逼真,更在于它首次将实时交互、长期一致性和语言可控性融合于同一生成式系统:以每秒24帧、720p的分辨率边生成边交互,用户无需任何预制3D资产即可像玩游戏一样实时探索,同时具备长达几分钟的空间记忆,使世界在转身离开后依然保持稳定连续。
正因如此,Genie 3不再只是“可看的视频模型”,而是有望成为支撑智能体长期试错与规划的训练环境、将内容创作从搭场景降维到写一句话的生产工具,以及可低成本复现极端情境的科学模拟沙盒,为通往通用智能提供了一条可交互、可长期演化的模拟路径。
最近,哈萨比斯在采访中表示,除AI之外,世界模型和模拟可能是他最长久的热情所在。他认为,语言模型已意外学会大量关于世界的知识,但真正的世界理解——尤其是空间动态、物理因果和需要亲身体验的感知能力——很难仅靠语言获得,必须通过世界模型与模拟来补足。
世界模型本质上是一种“直觉物理学”,能理解事物如何运作、移动与相互作用,而生成逼真的世界正是这种理解的证明。像Genie、Veo这样的交互式视频与世界模型,是迈向通用智能、机器人和现实中通用助手的关键一步,最终也可能回归他最初热爱的游戏与模拟,创造真正意义上的“终极游戏”。
技术终究服务于人,在这方面,谷歌也披露了诸多进展。
气候方面,其洪水预警系统已覆盖150个国家、20多亿人口。新推出的天气预报模型WeatherNext 2,速度是以前的8倍,最精细可做到按小时预测。
项目链接:https://deepmind.google/science/weathernext/
医疗方面,他们在通用模型基础上打造了若干垂类模型,例如基于Gemma开源模型系列的、用于单细胞分析的270亿参数基础模型Cell2Sentence-Scale 27B(C2S-Scale),该模型有助于发现新的潜在癌症治疗途径。
项目链接:https://blog.google/technology/ai/google-gemma-ai-cancer-therapy-discovery/
教育方面,谷歌也进行了多项创新,包括:
纵观2025年,谷歌展现的并非单一技术的突进,而是一种强大的“系统性工程能力”。算力层有TPU集群与量子回声算法,模型层有Gemini的逻辑进化,应用层有诺奖级的科研产出。
这一年,谷歌显然走出了“创新者的窘境”,不再纠结于先发优势的丧失,而是利用其庞大的全栈生态完成了补课与追赶。在AI竞争从“大模型跑分”转向“产业链落地”的下半场,这种从底层芯片到上层应用毫无短板的布局,或许才是科技巨头最核心的竞争力。
参考链接:https://blog.google/technology/ai/2025-research-breakthroughs/#computing
本文由主机测评网于2026-03-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260329875.html