据智东西9月1日报道,苹果公司再次宣布了其在大型人工智能模型研发领域的最新突破!
在8月28日,苹果于arXiv预印本平台上公开了一篇新论文,详细阐述了新一代多模态基础模型MobileCLIP2及其背后的多模态强化训练框架,同时于GitHub和Hugging Face社区开源了该模型的预训练权重与数据生成代码库。
MobileCLIP2专门针对零样本分类与检索任务优化设计,其推理延迟控制在3至15毫秒范围内,参数规模介于5000万到1.5亿之间。
此前,基于Transformer架构的大型编码器因内存与延迟开销较高,为移动设备部署带来挑战。为此,苹果在2023年11月推出了端侧多模态大模型MobileCLIP,通过多模态强化训练方法显著提升了模型在终端设备的部署效率。MobileCLIP2则是在此基础上,对多模态强化训练机制进行深度优化后的升级版本。
论文中指出,相比上一代模型,MobileCLIP2-B在图像分类基准数据集ImageNet-1k上的零样本准确率提升了2.2%。其模型变体MobileCLIP2-S4在iPhone 12 Pro Max上测得的零样本准确率可与参数规模更大的SigLIP-SO400M/14模型相匹敌。
此次改进的多模态训练机制采用了增强的教师监督(Teacher Supervision)与字幕数据(Caption Data)策略,以进一步提升零样本性能。
在移动端部署方面,该训练机制支持多模态模型直接在移动设备与边缘设备上运行,实现零样本检索和分类功能,同时具备极低的延迟与内存占用特性。
目前,MobileCLIP2所有模型变体的预训练权重均已公开,开发者可便捷部署并进行基准测试。苹果还同步发布了数据生成代码,支持开发者基于分布式可扩展处理框架,创建包含任意教师模型的新强化数据集。
模型的预训练权重链接:
https://github.com/apple/ml-mobileclip
强化训练的数据生成代码链接:
https://github.com/apple/ml-mobileclip-dr
GitHub链接:
https://github.com/apple/ml-mobileclip
Hugging Face链接:
https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47
论文地址:
https://arxiv.org/html/2508.20691v1
MobileCLIP2的核心优势在于实现了更小的参数规模、更低的推理延迟,同时保持了优异的泛化能力与准确性。
在零样本性能方面,MobileCLIP2-S4在iPhone 12 Pro Max上测得的准确率与SigLIP-SO400M/14相当,但参数量仅为其一半;在延迟方面,MobileCLIP2-S4表现优于DFN ViT-L/14,延迟约为后者的40%。
零样本指标的提升使模型无需针对特定任务、类别或场景进行训练,也不依赖额外标注数据微调,即可将预训练获得的通用知识迁移至未知任务中。
图像分类基准数据集ImageNet-1k上的基准测试结果
MobileCLIP2系列模型在不同延迟条件下,在38个数据集上的平均性能均位居前列。
从测评结果可见,MobileCLIP2-S2与SigLIP2-B/32的参数规模相差4倍,但性能表现相近,MobileCLIP2-S4与DFN ViT-L/14相比,推理速度提升了2.5倍。
此外,这一多模态训练机制强调可复现性与可扩展性。目前,MobileCLIP2所有模型变体的预训练权重均已公开,支持开发者直接部署与基准测试。
其强化训练的数据生成代码支持任意教师模型集成与分布式可扩展处理,便于开发者针对进一步研究与快速原型设计定制数据集强化方案。
在移动端,该训练机制支持直接在移动设备与边缘设备上部署,实现零样本检索与分类,具备极低延迟与内存占用;通过开放数据管道与模块化的教师、标题生成器集成,可扩展至新的模态或数据领域。
MobileCLIP2的多模态强化训练机制能够高效地将来自多源的知识蒸馏至较小模型中,并基于基础图像-文本对进行操作。
该训练机制整合了教师监督(Teacher Supervision)与字幕数据(Caption Data),旨在训练出具备强鲁棒性与高迁移性的模型,同时最大限度降低训练或推理过程中的计算开销。字幕数据指与图像、视频等视觉内容关联的文本描述信息。
其核心是通过采用DFN预训练的CLIP模型替换原有集成来改进教师监督模型,为多模态模型训练增添合成字幕,即图像、视频等数据的文本描述信息。
具体而言,首先,更强的CLIP教师模型体现在MobileCLIP2通过用DFN预训练的CLIP模型替换先前集成来优化教师监督,DFN2B-CLIP-ViT-L-14和DFN2B-CLIP-ViT-L-14-s39b的组合构成了教师集成的核心架构。
技术细节包括对每个教师模型独立进行对数尺度(Logits Scale)的精细调整;集成蒸馏在ImageNet-1k验证集上相比单教师变体提升了高达2.8%,证明教师信号聚合对于将高性能压缩至紧凑学生模型中至关重要;这一精度提升使MobileCLIP2能以更少参数和更低延迟,实现与更大规模模型相当或更优的性能。
其次,字幕生成教师模型(Captioner Teachers)通过两阶段协议进行升级优化。
第一阶段,研究人员在大型DFN-2B数据集上对CoCa风格的描述器进行初始再训练,以增强对图像内容的表达能力。
第二阶段是在高质量标题数据集MSCOCO-123k、MSCOCO-38k上进行后续微调,生成具备增强语义质量与多样性的合成标题。
此外,苹果研究人员的消融研究表明,在精选标题上进行微调可显著提升零样本分类与检索效果。其分析了标题生成的束搜索与采样策略,发现为每张图像生成超过1-2个标题的边际效益有限,表明策略性多样性优于数量堆砌。
这些用于蒸馏训练的合成文本描述扩展了模型的语义覆盖范围,使MobileCLIP2-B相比MobileCLIP-B在ImageNet-1k零样本任务准确率上提高了2.2%。
在苹果发布的论文中提到,MobileCLIP2在多模态模型训练机制上的改进,与参数高效微调、实时设备端推理以及从大型多模态教师库中进行可扩展蒸馏等当前大模型发展趋势高度契合。
同时,苹果将所有模型变体的预训练权重与数据生成代码开源,有助于开发者加速实验进程、应用于新任务场景并适应多样化计算环境。
本文由主机测评网于2025-12-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251213231.html