当前位置:首页 > 科技资讯 > 正文

Transformers v5 发布首个候选版本,开启AI基础设施新纪元

近日,Hugging Face 推出了 Transformers 库的第五个主要版本的首个候选版本 v5.0.0rc0,标志着这一全球领先的 AI 基础设施库进入新阶段。

Transformers v5 发布首个候选版本,开启AI基础设施新纪元  PyTorch 量化 推理引擎 第1张

GitHub 发布地址:https://github.com/huggingface/transformers/releases/tag/v5.0.0rc0

此次更新正式结束了从 v4 到 v5 长达五年的技术演进周期,成为 AI 领域的重要里程碑。自 2020 年 11 月 v4 发布以来,Transformers 的日下载量从约 2 万次飙升到如今的300 万次以上,总安装量突破12 亿次,凸显了其广泛影响力。

该库定义了业界使用模型的标准范式,支持的架构从最初的 40 个扩展至超过400 个,覆盖文本、视觉、音频及多模态领域。社区贡献的模型权重数量已超过75 万个,进一步丰富了其生态。

官方指出,在快速变化的人工智能领域,“重塑”是保持竞争力的关键。Transformers 作为领先的模型定义库,需持续演进以适应新技术趋势。

v5 版本将 PyTorch 确立为唯一核心后端,并聚焦四大进化方向:极致简洁性、从微调扩展到预训练、与高性能推理引擎的互操作性,以及将量化提升为核心功能。

简洁性

团队的首要目标是提升简洁性,确保模型集成方式清晰、标准化,从而增强通用性和生态支持。

新增模型

Transformers 本质上是一个模型架构工具箱,目标是收录所有最新架构,成为模型定义的权威来源。在过去五年中,平均每周新增 1-3 个新模型,增长趋势如下图所示:

Transformers v5 发布首个候选版本,开启AI基础设施新纪元  PyTorch 量化 推理引擎 第2张

模块化方法

过去一年中,Hugging Face 大力推行模块化设计,以简化维护、加速集成并促进社区协作。

Transformers v5 发布首个候选版本,开启AI基础设施新纪元  PyTorch 量化 推理引擎 第3张

尽管坚持“一个模型,一个文件”的哲学,但团队引入了抽象层如 AttentionInterface,以集中管理注意力机制。Eager 方法保留在建模文件中,而其他方法如 FlashAttention 或 SDPA 移至接口中。

模型转换工具

Hugging Face 正构建工具,利用机器学习识别新模型与现有架构的相似性,并自动化转换流程,减少手动工作并确保一致性。

代码精简

精简 Modeling & Tokenization/Processing 文件

通过模块化方法和标准化,建模文件得到显著改善,仅保留核心前向/反向传播部分。Tokenization 和 processing 文件也将简化,未来只关注 tokenizers 后端,移除 Fast 和 Slow tokenizer 概念,图像处理器仅保留依赖 torchvision 的 fast 版本。

v5 将逐步停止对 Flax / TensorFlow 的支持专注于 PyTorch 作为唯一后端,同时与 JAX 生态合作确保兼容性。PyTorch 基金会执行董事 Matt White 表示,Transformers 正全面转向 PyTorch。

训练

v5 版本加强训练支持,从微调扩展到大规模预训练和完整训练。

预训练

为支持预训练,团队重新设计了模型初始化方式,并加入对前向与反向传播优化算子的支持,现已与 torchtitan、megatron 等工具广泛兼容。

微调与后训练

Hugging Face 将继续与 Python 生态系统中的微调工具紧密合作,同时与 JAX 生态的 MaxText 等工具兼容,确保互操作性。所有微调和后训练工具都可依赖 Transformers 作为模型定义来源,并通过 OpenEnv 或 Prime Environment Hub 支持更多 Agentic 场景。

推理

推理是 v5 优化的重点,带来范式级更新:包括专用内核、更干净的默认设置、新 API,以及对推理引擎的优化支持。

团队封装了推理内核,并新增两个专用 API:连续批处理和 paged attention 机制(内部已使用,后续将发布指南),以及全新的 transformers serve 服务系统,可部署兼容 OpenAI API 的服务器。

v5 强化了对推理场景的支持,尤其适用于模型评估等需处理大量请求的任务。Transformers v5 并非取代 vLLM、SGLang 等专业推理引擎,而是旨在实现兼容。

生产环境

本地部署

团队与流行推理引擎紧密合作,使 Transformers 可作为后端使用,确保新模型立即在引擎中可用并利用其优化功能。同时,与 ONNXRuntime、llama.cpp 和 MLX 合作提升互操作性,例如轻松加载 GGUF 文件进行微调,或将 Transformers 模型转换为 GGUF 格式。此外,与 executorch 团队合作推动设备端推理,并扩展对多模态模型的支持。

量化

量化已成为前沿模型开发的标准,许多 SOTA 模型以低精度格式发布。v5 将量化作为核心能力,确保与主要功能完全兼容,并为训练与推理提供可靠框架。

参考链接:https://huggingface.co/blog/transformers-v5