据智东西11月28日消息,快手近期正式将其新一代旗舰多模态大模型Keye-VL-671B-A37B开源。该模型基于DeepSeek-V3-Terminus架构构建,参数规模高达6710亿,在保留基础模型通用能力的基础上,针对视觉感知、跨模态对齐及复杂推理链路进行了深度优化,从而实现了强大的多模态理解与复杂推理功能。
Keye-VL-671B-A37B的实际表现如何?我们通过几个示例来直观感受。下图中有多少张电影票?许多人第一眼可能会回答:“三张。”
然而,Keye-VL-671B-A37B的观察更为细致,结合票据上的文字信息,它能准确判断图中实际仅有兩张电影票,最上方那张为爆米花小吃券。分析其思考过程可发现,模型不仅能识别每张票据的文字、标识和版式差异,还能进一步推理:左侧和中间的票据具备电影票的核心特征,而右侧票据缺少座位信息和影片场次标注,实为叠放的食品兑换券,并非电影票。
除图像理解能力外,Keye-VL-671B-A37B还拥有卓越的视频理解与推理能力。当被问及下方视频的镜头变化时,它能识别出“蓝色双层电车”、“Louis Vuitton”、“Tiffany & Co”等关键元素,并详细描述镜头移动的细节。
快手公布了Keye-VL-671B-A37B与其他视觉语言模型的性能对比。在通用视觉理解和视频理解两大核心领域,Keye-VL-671B-A37B的整体表现超越了字节跳动的Seed1.5-VL think、阿里巴巴的Qwen3-VL 235B-A22B等前沿视觉语言模型。
在涵盖STEM、推理、通用问答、视频理解、OCR和纯文本等能力的26项主流基准测试中,Keye-VL-671B-A37B获得了18项最高分。
目前,Keye-VL-671B-A37B已正式开源,用户可通过Hugging Face和GitHub平台下载体验。
Github:
https://github.com/Kwai-Keye/Keye
HuggingFace:
https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B
Keye-VL-671B-A37B采用DeepSeek-V3-Terminus作为大语言模型基座进行初始化,具备更强大的文本推理能力,视觉模型则采用Keye-ViT初始化,该组件源自Keye-VL-1.5,两者通过MLP层进行连接。Keye-VL-1.5是快手今年9月初开源的一款多模态大模型,拥有80亿参数,支持128k tokens扩展上下文。
Keye-VL-671B-A37B的预训练包含三个阶段,以系统化构建模型的多模态理解与推理能力。模型复用了Keye-VL-1.5的视觉编码器,该编码器已通过8B规模模型在1T token的多模态预训练数据上对齐,具备扎实的基础感知能力。
快手筛选了大约300B高质量预训练数据,这与其他大模型动辄以“万亿”计的训练数据形成鲜明对比。快手表示,旨在以有限计算资源高效构建模型的核心感知基础,确保视觉理解能力牢固且计算成本可控。
Keye-VL-671B-A37B的预训练分三步实施:
第一阶段:冻结ViT和LLM,仅训练随机初始化的Projector,确保视觉与语言特征能初步对齐。
第二阶段:开放全部参数进行预训练。
第三阶段:在更高质量数据上进行退火训练,提升模型的细粒度感知能力。
快手通过自动化数据管线构建多模态预训练数据。团队对数据进行了严格过滤、重采样,并加入VQA数据增强,使数据覆盖OCR、图表、表格等常见且复杂的视觉格式,从而提升模型的感知质量和泛化能力。
在退火阶段,快手加入了DeepSeek-V3-Terminus生成的思维链数据,让模型在继续强化视觉感知的同时,保持原有的强大推理能力。
Keye-VL-671B-A37B的后训练由监督微调(SFT)、冷启动和强化学习三个步骤组成,训练任务涵盖视觉问答、图表理解、富文本OCR、数学、代码、逻辑推理等。
在SFT阶段,Keye-VL-671B-A37B技术团队使用了更多的多模态和纯文本长思维链数据,对模型的纯文本能力进行回火并增强多模态能力。在冷启动阶段,采用推理数据提升模型的推理能力;在强化学习阶段,采用复杂推理数据优化模型的think和no_think(思考与非思考)能力,并加入视频数据以增强模型的视频理解能力。
Keye-VL-671B-A37B技术团队对数据集中指令(Instruct)数据和长思维链(Long-CoT)数据的配比进行了多次实验,以突破此前监督微调范式过度依赖指令数据的局限。
在此过程中,快手验证了混合模式(Instruct + Long-CoT)相对于单一模式(Instruct)的优越性,即在SFT数据集中加入更多长思维链推理数据,有助于提升模型整体性能,并改善后续训练的稳定性。
损失曲线显示,在SFT阶段加入更多的CoT数据可以显著降低冷启动阶段的训练损失。
在多个基准测试上的性能对比也表明,采用混合CoT数据训练的模型相比仅进行指令微调的模型取得了明显的性能提升。
在冷启动阶段,CoT数据的质量对于提升模型推理能力至关重要,而纯文本模型的推理过程往往冗长且存在大量重复。为了缓解过度思考问题,Keye-VL-671B-A37B技术团队开发了严格的数据筛选流程,过滤掉存在冗余反思行为的思维链。
在Keye-VL-1.5-8B上的实验结果显示,过滤冗余数据对于模型的推理能力和感知能力均有积极影响。
在强化学习阶段,快手未使用传统的GRPO强化学习算法。GRPO是token-level(令牌层)的建模,在训练MoE模型时存在不稳定性。
在Keye-VL-671B-A37B的训练中,快手采用GSPO(Group Sequence Policy Optimization)作为底层强化学习算法,进行sequence-level(序列层)的建模,以提升可验证奖励强化学习(RLVR)训练的稳定性。值得注意的是,该算法是阿里Qwen3系列模型的核心算法之一。
对于强化学习而言,奖励信号的质量至关重要。在Keye-VL-671B-A37B的强化学习系统中,快手首先训练了专用的Verifier(验证器),用于验证模型输出思考过程的逻辑性,以及最终答案与标准答案的一致性。Verifier模型采用Keye-VL-1.5 8B作为基座,训练过程包括SFT和RL两个阶段。
在SFT阶段,既包含简单的二分类任务(直接判断生成答案是否与参考答案一致),也包含更复杂的分析任务(需要Verifier模型以think-answer格式分析生成回复的逻辑性和正确性)。
在RL阶段,技术团队首先在大规模偏好数据上训练,然后利用人工标注的高质量数据集进行退火,以提高Verifier模型的精度。
为了评估Verifier模型对生成结果的检测精度,技术团队抽取了10000条训练数据及模型生成的答案,对比Verifier模型与Qwen-2.5-VL 72B Instruct模型的检测精度。在人工抽样的150条Keye-Verifier与Qwen判别结果不一致的数据中,Keye正确的数目达到128条,Qwen占22条。
基于Keye-VL-preview的预实验显示,Keye-Verifier提供的奖励信号,相对于基于规则匹配的奖励信号,使Keye-VL-preview在多个开源感知基准测试上的平均准确率提升了1.45%,在三个多模态数学数据集上的平均准确率提升了1.33%。
为筛选高难度样本,快手利用Keye-VL-1.5-8B作为过滤器,在候选数据集上采样并用Verifier模型计算准确率,仅保留正确率在25%~75%之间的数据用于训练。在RL数据集中,快手加入了更多视频数据以提升模型的视频理解能力。
快手表示,未来Keye-VL系列模型将在提升基础模型能力的同时,进一步融合多模态Agent能力,走向更“会用工具、能解复杂问题”的形态。模型的多轮工具调用能力将得到增强,使其能在真实任务中自主调用外部工具,完成搜索、推理、整合等操作。
同时,快手也将推进“think with image”、“think with video”等关键方向,使模型不仅能理解图像与视频,还能围绕它们进行深度思考与链式推理,从复杂视觉信号中提取关键信息。最终,快手旨在打造更通用、更可靠、推理能力更强的下一代多模态系统。
(网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)
本文由主机测评网于2026-01-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260121621.html