当前位置:首页 > 科技资讯 > 正文

何恺明NeurIPS 2025演讲:Faster R-CNN荣获时间检验奖,全景回顾视觉目标检测三十年发展历程

在刚落下帷幕的NeurIPS 2025会议上,全球人工智能领域的顶尖学者齐聚一堂,分享了众多前沿研究成果。作为AI学术界的顶级盛会,本次会议见证了多项里程碑式的工作。

会议期间,一项殊荣的颁发格外引人注目——由任少卿、何恺明、Ross Girshick和已故的孙剑共同完成的经典著作《Faster R-CNN》荣获了备受瞩目的「时间检验奖」(Test of Time Award)。这一奖项是对其深远影响的最高认可。

对于任何涉足计算机视觉领域的研究者或工程师而言,《Faster R-CNN》都是一个如雷贯耳的名字。自2015年发表以来,这篇论文不仅奠定了现代目标检测框架的基石,更如一座灯塔,为随后十年的视觉模型发展指明了方向,其影响力经久不衰。

何恺明NeurIPS 2025演讲:Faster R-CNN荣获时间检验奖,全景回顾视觉目标检测三十年发展历程 目标检测  Faster R-CNN 计算机视觉 何恺明 第1张

论文地址:https://arxiv.org/pdf/1506.01497

何恺明NeurIPS 2025演讲:Faster R-CNN荣获时间检验奖,全景回顾视觉目标检测三十年发展历程 目标检测  Faster R-CNN 计算机视觉 何恺明 第2张

为了见证并总结这一历史性时刻,论文作者之一何恺明在大会上发表了题为《视觉目标检测简史》(A Brief History of Visual Object Detection)的主题演讲。

何恺明NeurIPS 2025演讲:Faster R-CNN荣获时间检验奖,全景回顾视觉目标检测三十年发展历程 目标检测  Faster R-CNN 计算机视觉 何恺明 第3张

目前,何恺明的演讲PPT已经公开,感兴趣的研究者可以通过以下链接查阅:

https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf

纵观整场演讲,何恺明不仅仅是在回顾技术演进,更像是在讲述一部计算机如何逐步学会“看”世界的壮丽史诗。他系统梳理了过去30年视觉目标检测的发展脉络,其中提及的每一项工作都曾荣获各大顶会的时间检验奖,共同推动了视觉智能的跨越式发展。

你是否曾好奇,为何如今的人工智能能够在转瞬之间精准识别出照片中的猫、狗、汽车乃至它们的具体位置?而在十几年前,这还被认为是一个遥不可及的挑战?何恺明的演讲恰好为我们揭开了这段波澜壮阔的技术演进史。

何恺明NeurIPS 2025演讲:Faster R-CNN荣获时间检验奖,全景回顾视觉目标检测三十年发展历程 目标检测  Faster R-CNN 计算机视觉 何恺明 第4张

接下来,让我们跟随大神的视角,穿越回那个“原始”的手工特征时代,一同回顾这段精彩纷呈的探索之旅。

原始时代:手工打磨的「特征放大镜」

在深度学习席卷计算机视觉之前,科学家们更像是精雕细琢的工匠,致力于设计精巧的特征描述符。

人脸检测的早期尝试:早在上世纪90年代,学者们就开始尝试利用神经网络和统计方法进行人脸检测:1996年,Rowley等人发表了《基于神经网络的人脸检测》(Neural Network-Based Face Detection),这也是何恺明阅读的第一篇CV论文,他们利用早期的神经网络在图像金字塔上滑动搜索人脸;1997年,Osuna等人引入支持向量机,发表了《用于人脸检测的SVM》(SVM for Face Detection),试图在高维空间中绘制出完美的分类超平面;2001年,著名的Viola-Jones框架(The Viola-Jones Framework)横空出世,凭借简单的Haar特征和级联分类器实现了实时人脸检测,至今仍影响深远。

特征工程的黄金时代:既然直接检测整张人脸困难重重,研究者们转而寻找更具鲁棒性的关键点和纹理特征,特征工程迎来了黄金时代:1999年,Lowe提出了SIFT,这种尺度不变特征变换能够在图像旋转、缩放时依然稳定识别物体,堪称当年的“王者”算法;2003年,Sivic和Zisserman借鉴文本检索思想,提出「视觉词袋模型」(Bag of Visual Words),将图像视为一系列视觉单词的集合;2005年,Dalal和Triggs发明了HOG(方向梯度直方图),专注于行人轮廓的描述,同年Grauman和Darrell提出金字塔匹配核(Pyramid Match Kernel),用于衡量特征集相似度;2006年,Lazebnik等人进一步提出「空间金字塔匹配」(Spatial Pyramid Matching),弥补了词袋模型丢失空间信息的缺陷;2008年,特征工程的集大成者DPM(Deformable Part Model)登场,它将物体分解为多个可变形的部件(如人的头、手、脚),通过弹簧模型连接,实现了灵活而强大的检测。

然而,这些方法的共同痛点在于:特征完全依赖人工设计(Hand-crafted),分类器(如SVM)只能基于这些有限且固定的特征进行学习。这导致系统不仅计算缓慢,而且难以适应复杂多变的真实场景。

破晓时刻:AlexNet 与 R-CNN 的「暴力美学」

2012年,AlexNet在ImageNet竞赛中以绝对优势夺冠,震惊学术界。它证明了深层卷积神经网络(CNN)自动提取特征的能力远超人类手工设计。然而,如何将图像分类的强大能力迁移到目标检测(即不仅要识别物体,还要定位其边界框)成为新的挑战。

深度学习的惊雷:2012年,AlexNet (Krizhevsky et al.) 在 ImageNet 竞赛中以压倒性优势夺冠。它证明了深层卷积神经网络(CNN)提取特征的能力远超人类手工设计。

何恺明NeurIPS 2025演讲:Faster R-CNN荣获时间检验奖,全景回顾视觉目标检测三十年发展历程 目标检测  Faster R-CNN 计算机视觉 何恺明 第5张

R-CNN:从分类到检测 2014年,Ross Girshick等人提出了具有划时代意义的R-CNN(基于区域的卷积神经网络)。其思路简洁而直接:首先利用传统算法(如Selective Search)从每张图像中提取约2000个可能包含物体的候选区域;然后将每个候选区域缩放至固定尺寸,送入CNN提取特征;最后使用SVM对这些特征进行分类,并回归边界框。尽管R-CNN效果显著,但其计算效率极低,因为每个候选区域都需要独立经过CNN前向传播。

巅峰之作:Faster R-CNN 的「速度革命」

面对R-CNN的冗余计算,研究者开始探索如何共享卷积计算。2014年,何恺明团队提出SPP-Net(Spatial Pyramid Pooling),通过在特征图上引入空间金字塔池化层,使得网络能够处理任意尺寸的输入,并且只需对整图进行一次卷积计算,大大加速了检测过程。2015年,Girshick借鉴SPP-Net的思想,推出了Fast R-CNN,它引入RoI Pooling层,将特征提取、分类和回归整合到一个网络中,实现了端到端的训练,进一步提升了速度和精度。

何恺明NeurIPS 2025演讲:Faster R-CNN荣获时间检验奖,全景回顾视觉目标检测三十年发展历程 目标检测  Faster R-CNN 计算机视觉 何恺明 第6张

尽管如此,Fast R-CNN仍然依赖外部传统的候选区域生成算法(如Selective Search),这一环节成为系统的速度瓶颈,制约了整体性能的进一步提升。

何恺明NeurIPS 2025演讲:Faster R-CNN荣获时间检验奖,全景回顾视觉目标检测三十年发展历程 目标检测  Faster R-CNN 计算机视觉 何恺明 第7张

2015年,Faster R-CNN的诞生:何恺明团队在Fast R-CNN的基础上迈出了关键一步:提出区域提议网络(RPN,Region Proposal Network)。他们从1991年LeCun等人的“空间位移神经网络”中获得灵感,让网络自身在卷积特征图上滑动,通过预设的锚点(Anchor)直接预测物体可能存在的位置。这一创新将候选区域生成也纳入了神经网络,实现了端到端的统一训练。

至此,目标检测的所有核心步骤——候选区域提议、特征提取、目标分类、边界框回归——全部由神经网络接管,Faster R-CNN成为首个接近实时检测的深度学习模型,速度和精度实现双重飞跃,标志着计算机视觉正式迈入实时检测时代。

迷雾之后:Transformer 与「万物分割」的新纪元

Faster R-CNN开启了目标检测的黄金十年,但探索的脚步从未停歇。何恺明在演讲中继续展示了技术洪流的演进方向:既然要追求极致速度,能否彻底抛弃候选区域步骤?2016年,YOLO(You Only Look Once)和SSD(Single Shot MultiBox Detector)等单阶段检测器应运而生,它们像人类扫视全图一样,直接输出所有物体的位置和类别,实现了极速检测;2017年,为解决单阶段检测中正负样本不平衡导致的精度下降,何恺明团队提出Focal Loss(RetinaNet),通过重塑损失函数让模型聚焦于难分样本;同年,Mask R-CNN惊艳亮相,它在Faster R-CNN的基础上增加一个并行分支,不仅能画框,还能像素级地分割出物体(实例分割),并引入RoI Align解决像素对齐问题;2020年,DETR(Detection Transformer)将Transformer架构引入视觉,完全抛弃了Anchor和复杂的后处理(如NMS),利用全局注意力机制重新定义了检测范式;2023年,SAM(Segment Anything Model)横空出世,在海量数据(SA-1B数据集)的驱动下,学会了分割任意物体,不再受限于特定类别,展现了视觉大模型的雏形。

何恺明NeurIPS 2025演讲:Faster R-CNN荣获时间检验奖,全景回顾视觉目标检测三十年发展历程 目标检测  Faster R-CNN 计算机视觉 何恺明 第8张

大航海时代的启示:我们学到了什么?

回顾这段历史,何恺明风趣地总结道:“写目标检测论文,然后拿时间检验奖 :)”(Write object detection papers and win Test of Time Awards :))

演讲的最后,他展示了一张由Nano-Banana生成的寓意深远的图片:一艘帆船缓缓驶向迷雾笼罩的大海。

何恺明NeurIPS 2025演讲:Faster R-CNN荣获时间检验奖,全景回顾视觉目标检测三十年发展历程 目标检测  Faster R-CNN 计算机视觉 何恺明 第9张

他感慨道,科学探索就像是驶入迷雾,没有预先绘制的地图,甚至不确定终点是否存在。从手工特征到CNN,再到Transformer,每一次重大突破都是探险者在迷雾中偶然发现的新大陆。Faster R-CNN不仅是一项杰出的算法,更传递了一种哲学:当一个系统组件成为瓶颈时,不妨用更强大的可学习模型去替代它。展望未来,计算机视觉的下一座“圣杯”会是什么?这有待新一代研究者继续探索。