当前位置:首页 > 科技资讯 > 正文

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式

谷歌在AI技术沉淀上的厚度确实令人惊叹~

前不久刚刚凭借Gemini 3 Pro与Flash组合在大模型战场强势压制OpenAI,转瞬之间又将火力聚焦至端侧轻量化模型

昨夜,谷歌低调放出两枚技术重磅炸弹,全部围绕端侧智能展开。

一个是T5Gemma 2——这是一次对传统Transformer架构的现代诠释,也是首个开源的、支持多模态与长上下文交互的编码器-解码器模型家族,最小规格仅270M–270M(2.7亿参数)。

另一个是FunctionGemma,一款专为函数调用极致压缩的270M参数小模型,能够在手机、平板乃至浏览器环境中无缝运行。

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第1张

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第2张

T5Gemma 2FunctionGemma均出身于Gemma 3开源家族,与Gemini这类云端超大模型相对,Gemma系列一直扮演着轻量级端侧先锋的角色。

二者虽同属一族,却像同门师兄弟各怀绝技,路径分明

T5Gemma 2致力于架构革新与多模态融合,重新激活了Encoder-Decoder结构的生命力。

而FunctionGemma则聚焦智能体与工具链整合,将函数调用能力发挥至极致。

T5Gemma 2的架构设计与当前主流的Decoder-only大模型截然不同,它更像是AI演进史中一条被重新挖掘的经典路径。

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第3张

论文地址:https://arxiv.org/pdf/2512.14856

谷歌此次开源的T5Gemma 2共包含三组预训练权重:270M–270M、1B–1B以及4B–4B,全面覆盖不同端侧算力层级。

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第4张

开源地址:https://huggingface.co/collections/google/t5gemma-2

FunctionGemma则可视为技能特化的功能模型,其训练逻辑近似于从通用大模型中抽离所有百科全书式知识,仅保留对函数签名的精准解析与调用能力。

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第5张

开源地址:https://blog.google/technology/developers/functiongemma/

T5Gemma系列技术深潜:为何Encoder-Decoder是端侧最优解?

我们先拆解T5Gemma 2这种“复古”架构的核心竞争力:

多模态性能领跑:在多项图文混合评测中,其成绩甚至优于同门师兄Gemma 3。

通用任务全面增强:无论是代码生成、逻辑推理还是多语言理解,T5Gemma 2在同参数量级下对Gemma 3形成压制。

长上下文处理能力飞跃:与Gemma 3及初代T5Gemma相比,长文本生成质量出现肉眼可见的提升。

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第6张

与初代T5Gemma类似,T5Gemma 2在预训练阶段已持平甚至超越Gemma 3同等规模模型,而在指令微调后阶段,其优势被进一步拉大

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第7张

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第8张

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第9张

要理解谷歌为何重拾T5Gemma这条支线,就必须回顾大模型技术路线的演化分水岭

T5Gemma堪称大模型领域的“文艺复兴”。

在GPT、Llama等Decoder-only独步天下的今天,T5Gemma 2逆势复兴Transformer原教旨架构——Encoder-Decoder,并为其注入现代技术血液。

当下我们熟知的GPT、Gemini、DeepSeek无一例外均采用Decoder-only(仅解码器)设计。

GPT系列(OpenAI):从初代GPT到GPT-4o,Decoder-only血脉从未中断。

DeepSeek:无论是V2还是V3版本,其内核依然是Decoder-only(辅以MoE混合专家)。

Llama(Meta):开源社区Decoder-only路线的绝对标杆。

Gemini(谷歌):主力对话模型(Pro/Flash)也以Decoder-only为基础。

几乎每一款能进行流畅对话的超级模型,都不约而同选择了Decoder-only架构

何为“回归”?从Transformer家族分裂史说起

要理解“回归”,必须先看清当年的“分裂”。

2017年谷歌发表《Attention Is All You Need》,Transformer诞生时本就是Encoder-Decoder齐备的完整架构

然而此后,家族沿三条路径分化:

流派A:Encoder-only(仅编码器)

代表:BERT

特长:精于“阅读理解”,却无法“提笔写作”。在分类、判别式任务上无人能及,但让其生成一句通顺文本便捉襟见肘。

流派B:Decoder-only(仅解码器)

代表:GPT

特长:擅长“续写下文”。虽然只能依赖左侧上文(单向注意力),不如Encoder双向视野开阔,但它天生具备生成能力,更关键的是,当模型规模跨越某个临界点,智能意外涌现

这个“意外”开启了如今的大模型时代。

流派C:Encoder-Decoder(编解码并重)

代表:T5(谷歌)、BART

特长:既理解又生成。T5Gemma 2正属于这一流派。

T5全称Text-to-Text Transfer Transformer,五个T连写,因而得名T5。

那么,为何Decoder-only(GPT一脉)后来几乎一统天下?

  1. 训练范式极简:

只需将海量文本喂入,让模型无监督地预测下一个词即可(自回归预训练)。

  1. 规模定律驱动:

即Scaling Law。业界发现Decoder-only模型参数量越大,智能水平提升最明显,且工程上更易并行扩展。

  1. Encoder-Decoder渐被冷落:

因其结构包含两套参数,训练复杂度略高,在千亿乃至万亿参数的超大规模竞赛中,性价比略逊于纯粹Decoder-only路线。

也只有谷歌这样既有技术底蕴又富算力的玩家,才有余力重拾这条经典脉络,持续深耕。

当全球AI圈都在Decoder-only赛道上卷生卷死,谷歌却悄然回马一枪。

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第10张

Decoder-only已然如此强大,为何还要折返改造Encoder-Decoder?

因为谷歌精准捕捉到Decoder-only无法回避的短板,而这些恰恰是Encoder-Decoder的舒适区:

“幻觉”困境:

Decoder-only(GPT)

边看边写,单向生成,有时“文思泉涌”便脱离事实,自信满满地捏造信息。

Encoder-Decoder(T5)

则是“先读透(Encoder),再动笔(Decoder)”

Encoder强制模型将完整输入语义压缩为稠密表示,Decoder基于此表示逐词翻译输出,这种机制天然抑制幻觉,输出更忠实于输入。

多模态入口的天然适配:

若要模型理解图像,Encoder(编码器)是最优视觉处理器。

T5Gemma 2可将图像特征直接馈入Encoder,相比强行将图像离散token塞给Decoder-only,该路径显然更顺畅、高效。

端侧资源饥渴症的解药:

在手机等算力受限设备上,若只需完成翻译、摘要、指令跟随等任务,Encoder-Decoder往往能以更少的参数量(内存占用更低),达到与超大Decoder-only模型媲美的效果。

T5Gemma 2的诞生,并非意在取代GPT,而是在专用领域(端侧交互、翻译、工具调用、严谨推理)为Encoder-Decoder正名,开辟差异化战场

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第11张

T5Gemma 2并非从零预训练,而是采用一种名为“模型适配”的高效迁移技术。

其核心是利用已经过数万亿token训练的Gemma 2或Gemma 3解码器作为“种子”,将其权重映射至全新的编码器-解码器框架中。

此策略大幅削减训练开销,同时使模型完整继承原生的语言理解基因。

FunctionGemma:为智能体打造的“专用神经核”

如果说T5Gemma 2是底层架构的创变,那么FunctionGemma则代表了能力维度的极致聚焦。

FunctionGemma直击大模型落地最棘手的症结——「不仅要会聊,更要会干活」。

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第12张

函数调用(Function Calling):常规模型面对“设置闹钟”“查询天气”等指令,往往只能虚构答案。而FunctionGemma经过针对性微调,能够稳定输出结构明确的JSON数据,精准触发外部API或工具。

智能体任务优化:专为AI Agent设计,擅长多轮推理与复杂任务拆解。

极致轻量化:体积极小,可常驻手机、智能家居中枢甚至可穿戴设备,成为本地的“任务调度中心”。

典型场景:语音助手离线控制、智能家居自动化、端侧Agent服务、API网关调度。

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第13张

FunctionGemma并非Gemma家族简单的“瘦身版”,而是一个经过精密设计的“神经路由”,专门用以规避云端大模型固有的延迟、隐私与成本难题。

从对话到行动:AI范式的本质跃迁

过去一年,大语言模型的进化主线集中于对话体验、知识广度与多模态感知。

然而,随着场景深化,开发者社区的最强呼声已从“能聊天的AI”转向“能干活的AI”。

这一从“接口交互”向“自主行动体”的跃升,要求模型不仅通晓自然语言,更能精准操作软件接口、编排多步工作流,甚至与物理世界实时联动。

FunctionGemma恰逢其时。

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第14张

作为Gemma 3家族中体型最小的成员,它主动舍弃了对通用知识广度的追求,换取了在函数调用这一垂直任务上的极致性能。

这种“特种兵”式模型构建思路,昭示着AI工程化的新趋势:通过小型化、专业化将智能下放至网络末梢——用户的手机、IoT设备乃至浏览器内核。

FunctionGemma之所以能以不足3亿参数实现卓越的函数调用准确率,仰赖其独特的架构设计与训练策略。

它不是通过粗暴的剪枝蒸馏而来,而是基于Gemma 3基座,以“句法精确性”和“逻辑确定性”为目标进行针对性压缩。

FunctionGemma仅含2.7亿(270M)参数。

在如今动辄千亿参数的模型语境中,这个数字几乎微不足道,连大模型的“零头”都算不上,但其设计哲学却极具颠覆气质。

传统认知中,推理能力随参数量呈规模定律涌现。

然而FunctionGemma打破了这一定律,实证了在特定领域(Domain-Specific),小模型凭借高质量数据微调,足以比肩甚至超越大模型。

官方虽未透露蒸馏细节,但270M的体量意味着模型内部绝大多数百科类常识已被剥离。

它不再关心“法国首都是哪里”或“莎士比亚何时出生”,只需熟稔JSON格式、函数签名匹配与参数类型校验。

剑指移动端:让AI常驻手机成为可能

“能在手机上跑吗?”这是开发者最关切的问题。

答案不仅是“能”,而且FunctionGemma正为此而生。

移动设备中,内存是最奢侈的资源。

Android低内存回收机制会随时终止后台内存占用过大的进程。

FunctionGemma 270M以FP16精度存储,权重文件约540MB

对于搭载8GB、12GB乃至24GB内存的现代旗舰机,这仅占系统内存的5%-7%,完全具备后台常驻条件。

Int8/Int4量化:端侧部署通常借助量化进一步降低功耗与内存占用。

Int8量化:模型体积锐减至约270MB

Int4量化:模型可压缩至约135MB

这意味着它甚至能在入门级设备或嵌入式芯片上流畅运转。

谷歌为何押注如此“小”的模型?

其背后潜藏着对未来AI计算架构的深层判断,以及在移动操作系统话语权争夺中的防御性卡位。

这是FunctionGemma最隐秘且关键的战略价值。

在主流AI应用中,将所有请求发往云端不仅成本高昂,且响应延迟难以忍受。

移动互联网的下一站:意图驱动

移动互联网的演进终局将是意图驱动(Intent-Driven)

意图驱动:用户无需逐级点击APP图标,而是直接说出目标。

现状:Siri与谷歌助理长期受困于有限指令集,只能通过预设接口唤起APP的局部功能。

FunctionGemma通过让模型直接学习APP的API定义,有望使AI成为真正通用的交互UI。

开发者只需暴露工具(Tools),FunctionGemma便能理解并调用这些工具。

谷歌的棋局:以开源FunctionGemma为支点,撬动一套AI与APP交互的行业标准

倘若所有Android开发者都按照FunctionGemma的格式定义工具接口,那么Android系统将进化为全球最大的智能体平台,谷歌护城河将因此进一步深掘。

为验证FunctionGemma的实战能力,谷歌公布了两个典型参考用例,分别聚焦游戏控制与系统操作。

场景描述:用户以自然语言下达指令,模型即时将其转换为Android系统意图。

技术拆解

多参数抽取:用户说“给John发邮件说我迟到了”,模型需提取recipient="John",body="我迟到了",action="send_email"。

歧义消解:若用户只说“发邮件”,模型可能主动调用ask_clarification函数,反问“发给谁?”。这种多轮澄清能力远超硬编码规则。

性能数据:微调后的FunctionGemma在该任务上准确率达到85%,远未被微调的基座模型(58%)。这有力证明了在垂直端侧任务中,小模型完全可替代云端大模型。

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第15张

「Tiny Garden」演示了FunctionGemma如何实时驱动游戏逻辑。

场景:一款语音交互的种植游戏。用户说“在最上面一排种满向日葵,然后浇水”。

任务拆解(Task Decomposition):模型不仅识别意图,还要完成逻辑推导。它将单句指令拆解为一系列原子函数调用:

select_crop(type="sunflower")

plant(row=0,col=0)...plant(row=0,col=N)

water(row=0)

完全离线:全过程无需联网,对手游体验至关重要,避免网络抖动造成指令延迟。

谷歌连发T5Gemma 2与FunctionGemma:端侧小模型的双引擎战略,重构AI应用新范式 T5Gemma 2  FunctionGemma 端侧AI Encoder-Decoder架构 第16张

开发者而言,FunctionGemma提供了一条低成本、高隐私的Agent能力集成路径,无需维护昂贵云端推理服务。它使“语音控万物”不再是大厂专属,而将成为每一款APP的基础能力。

手机厂商来说,270M参数量是完美的“甜点区”——既能充分利用NPU算力,又不过度挤占系统资源,为构建“AI原生OS”提供了理想地基。

谷歌而言,这是其在AI时代捍卫Android生态主导权的关键落子。

可以预见,基于FunctionGemma的衍生模型将无处不在:在你的智能手表上实时分析健康数据,在你的家庭路由器里智能调度带宽,甚至在你座驾中自动调节座舱环境。

AI将不再是需要远程访问的网站服务,而会像电力一般,无形、稳定却无孔不入地渗透进数字生活的毛细血管。

参考资料:

https://blog.google/technology/developers/functiongemma/

https://blog.google/technology/developers/t5gemma-2/