当前位置：首页 > 科技资讯 > 正文

何恺明NeurIPS 2025演讲：Faster R-CNN荣获时间检验奖，全景回顾视觉目标检测三十年发展历程

主机测评网
科技资讯
2026-03-03
526

在刚落下帷幕的NeurIPS 2025会议上，全球人工智能领域的顶尖学者齐聚一堂，分享了众多前沿研究成果。作为AI学术界的顶级盛会，本次会议见证了多项里程碑式的工作。

会议期间，一项殊荣的颁发格外引人注目——由任少卿、何恺明、Ross Girshick和已故的孙剑共同完成的经典著作《Faster R-CNN》荣获了备受瞩目的「时间检验奖」(Test of Time Award)。这一奖项是对其深远影响的最高认可。

对于任何涉足计算机视觉领域的研究者或工程师而言，《Faster R-CNN》都是一个如雷贯耳的名字。自2015年发表以来，这篇论文不仅奠定了现代目标检测框架的基石，更如一座灯塔，为随后十年的视觉模型发展指明了方向，其影响力经久不衰。

何恺明NeurIPS 2025演讲：Faster R-CNN荣获时间检验奖，全景回顾视觉目标检测三十年发展历程目标检测 Faster R-CNN 计算机视觉何恺明第1张

论文地址：https://arxiv.org/pdf/1506.01497

何恺明NeurIPS 2025演讲：Faster R-CNN荣获时间检验奖，全景回顾视觉目标检测三十年发展历程目标检测 Faster R-CNN 计算机视觉何恺明第2张

为了见证并总结这一历史性时刻，论文作者之一何恺明在大会上发表了题为《视觉目标检测简史》(A Brief History of Visual Object Detection)的主题演讲。

何恺明NeurIPS 2025演讲：Faster R-CNN荣获时间检验奖，全景回顾视觉目标检测三十年发展历程目标检测 Faster R-CNN 计算机视觉何恺明第3张

目前，何恺明的演讲PPT已经公开，感兴趣的研究者可以通过以下链接查阅：

https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf

纵观整场演讲，何恺明不仅仅是在回顾技术演进，更像是在讲述一部计算机如何逐步学会“看”世界的壮丽史诗。他系统梳理了过去30年视觉目标检测的发展脉络，其中提及的每一项工作都曾荣获各大顶会的时间检验奖，共同推动了视觉智能的跨越式发展。

你是否曾好奇，为何如今的人工智能能够在转瞬之间精准识别出照片中的猫、狗、汽车乃至它们的具体位置？而在十几年前，这还被认为是一个遥不可及的挑战？何恺明的演讲恰好为我们揭开了这段波澜壮阔的技术演进史。

何恺明NeurIPS 2025演讲：Faster R-CNN荣获时间检验奖，全景回顾视觉目标检测三十年发展历程目标检测 Faster R-CNN 计算机视觉何恺明第4张

接下来，让我们跟随大神的视角，穿越回那个“原始”的手工特征时代，一同回顾这段精彩纷呈的探索之旅。

原始时代：手工打磨的「特征放大镜」

在深度学习席卷计算机视觉之前，科学家们更像是精雕细琢的工匠，致力于设计精巧的特征描述符。

人脸检测的早期尝试：早在上世纪90年代，学者们就开始尝试利用神经网络和统计方法进行人脸检测：1996年，Rowley等人发表了《基于神经网络的人脸检测》(Neural Network-Based Face Detection)，这也是何恺明阅读的第一篇CV论文，他们利用早期的神经网络在图像金字塔上滑动搜索人脸；1997年，Osuna等人引入支持向量机，发表了《用于人脸检测的SVM》(SVM for Face Detection)，试图在高维空间中绘制出完美的分类超平面；2001年，著名的Viola-Jones框架(The Viola-Jones Framework)横空出世，凭借简单的Haar特征和级联分类器实现了实时人脸检测，至今仍影响深远。

特征工程的黄金时代：既然直接检测整张人脸困难重重，研究者们转而寻找更具鲁棒性的关键点和纹理特征，特征工程迎来了黄金时代：1999年，Lowe提出了SIFT，这种尺度不变特征变换能够在图像旋转、缩放时依然稳定识别物体，堪称当年的“王者”算法；2003年，Sivic和Zisserman借鉴文本检索思想，提出「视觉词袋模型」(Bag of Visual Words)，将图像视为一系列视觉单词的集合；2005年，Dalal和Triggs发明了HOG(方向梯度直方图)，专注于行人轮廓的描述，同年Grauman和Darrell提出金字塔匹配核(Pyramid Match Kernel)，用于衡量特征集相似度；2006年，Lazebnik等人进一步提出「空间金字塔匹配」(Spatial Pyramid Matching)，弥补了词袋模型丢失空间信息的缺陷；2008年，特征工程的集大成者DPM(Deformable Part Model)登场，它将物体分解为多个可变形的部件（如人的头、手、脚），通过弹簧模型连接，实现了灵活而强大的检测。

然而，这些方法的共同痛点在于：特征完全依赖人工设计（Hand-crafted），分类器（如SVM）只能基于这些有限且固定的特征进行学习。这导致系统不仅计算缓慢，而且难以适应复杂多变的真实场景。

破晓时刻：AlexNet 与 R-CNN 的「暴力美学」

2012年，AlexNet在ImageNet竞赛中以绝对优势夺冠，震惊学术界。它证明了深层卷积神经网络（CNN）自动提取特征的能力远超人类手工设计。然而，如何将图像分类的强大能力迁移到目标检测（即不仅要识别物体，还要定位其边界框）成为新的挑战。

深度学习的惊雷：2012年，AlexNet (Krizhevsky et al.) 在 ImageNet 竞赛中以压倒性优势夺冠。它证明了深层卷积神经网络（CNN）提取特征的能力远超人类手工设计。

何恺明NeurIPS 2025演讲：Faster R-CNN荣获时间检验奖，全景回顾视觉目标检测三十年发展历程目标检测 Faster R-CNN 计算机视觉何恺明第5张

R-CNN：从分类到检测 2014年，Ross Girshick等人提出了具有划时代意义的R-CNN（基于区域的卷积神经网络）。其思路简洁而直接：首先利用传统算法（如Selective Search）从每张图像中提取约2000个可能包含物体的候选区域；然后将每个候选区域缩放至固定尺寸，送入CNN提取特征；最后使用SVM对这些特征进行分类，并回归边界框。尽管R-CNN效果显著，但其计算效率极低，因为每个候选区域都需要独立经过CNN前向传播。

巅峰之作：Faster R-CNN 的「速度革命」

面对R-CNN的冗余计算，研究者开始探索如何共享卷积计算。2014年，何恺明团队提出SPP-Net(Spatial Pyramid Pooling)，通过在特征图上引入空间金字塔池化层，使得网络能够处理任意尺寸的输入，并且只需对整图进行一次卷积计算，大大加速了检测过程。2015年，Girshick借鉴SPP-Net的思想，推出了Fast R-CNN，它引入RoI Pooling层，将特征提取、分类和回归整合到一个网络中，实现了端到端的训练，进一步提升了速度和精度。

何恺明NeurIPS 2025演讲：Faster R-CNN荣获时间检验奖，全景回顾视觉目标检测三十年发展历程目标检测 Faster R-CNN 计算机视觉何恺明第6张

尽管如此，Fast R-CNN仍然依赖外部传统的候选区域生成算法（如Selective Search），这一环节成为系统的速度瓶颈，制约了整体性能的进一步提升。

何恺明NeurIPS 2025演讲：Faster R-CNN荣获时间检验奖，全景回顾视觉目标检测三十年发展历程目标检测 Faster R-CNN 计算机视觉何恺明第7张

2015年，Faster R-CNN的诞生：何恺明团队在Fast R-CNN的基础上迈出了关键一步：提出区域提议网络（RPN，Region Proposal Network）。他们从1991年LeCun等人的“空间位移神经网络”中获得灵感，让网络自身在卷积特征图上滑动，通过预设的锚点（Anchor）直接预测物体可能存在的位置。这一创新将候选区域生成也纳入了神经网络，实现了端到端的统一训练。

至此，目标检测的所有核心步骤——候选区域提议、特征提取、目标分类、边界框回归——全部由神经网络接管，Faster R-CNN成为首个接近实时检测的深度学习模型，速度和精度实现双重飞跃，标志着计算机视觉正式迈入实时检测时代。

迷雾之后：Transformer 与「万物分割」的新纪元

Faster R-CNN开启了目标检测的黄金十年，但探索的脚步从未停歇。何恺明在演讲中继续展示了技术洪流的演进方向：既然要追求极致速度，能否彻底抛弃候选区域步骤？2016年，YOLO(You Only Look Once)和SSD(Single Shot MultiBox Detector)等单阶段检测器应运而生，它们像人类扫视全图一样，直接输出所有物体的位置和类别，实现了极速检测；2017年，为解决单阶段检测中正负样本不平衡导致的精度下降，何恺明团队提出Focal Loss(RetinaNet)，通过重塑损失函数让模型聚焦于难分样本；同年，Mask R-CNN惊艳亮相，它在Faster R-CNN的基础上增加一个并行分支，不仅能画框，还能像素级地分割出物体（实例分割），并引入RoI Align解决像素对齐问题；2020年，DETR(Detection Transformer)将Transformer架构引入视觉，完全抛弃了Anchor和复杂的后处理（如NMS），利用全局注意力机制重新定义了检测范式；2023年，SAM(Segment Anything Model)横空出世，在海量数据（SA-1B数据集）的驱动下，学会了分割任意物体，不再受限于特定类别，展现了视觉大模型的雏形。

何恺明NeurIPS 2025演讲：Faster R-CNN荣获时间检验奖，全景回顾视觉目标检测三十年发展历程目标检测 Faster R-CNN 计算机视觉何恺明第8张

大航海时代的启示：我们学到了什么？

回顾这段历史，何恺明风趣地总结道：“写目标检测论文，然后拿时间检验奖 :)”（Write object detection papers and win Test of Time Awards :)）

演讲的最后，他展示了一张由Nano-Banana生成的寓意深远的图片：一艘帆船缓缓驶向迷雾笼罩的大海。

何恺明NeurIPS 2025演讲：Faster R-CNN荣获时间检验奖，全景回顾视觉目标检测三十年发展历程目标检测 Faster R-CNN 计算机视觉何恺明第9张

他感慨道，科学探索就像是驶入迷雾，没有预先绘制的地图，甚至不确定终点是否存在。从手工特征到CNN，再到Transformer，每一次重大突破都是探险者在迷雾中偶然发现的新大陆。Faster R-CNN不仅是一项杰出的算法，更传递了一种哲学：当一个系统组件成为瓶颈时，不妨用更强大的可学习模型去替代它。展望未来，计算机视觉的下一座“圣杯”会是什么？这有待新一代研究者继续探索。