学术圈再爆乌龙事件,且今日这出尤为荒诞——
来自AI大模型公司阶跃星辰的研究员Lei Yang自述,自己不幸被苹果公司发布于arXiv平台上的一篇论文狠狠‘坑’了一回。
他尝试向作者反馈问题,却仅得到寥寥数语回复,随后issue便被关闭。直至他公开发表评论,对方才匆忙撤稿并下架代码。
且慢,让我们先梳理一下整个事件的来龙去脉:
本月初,阶跃研究员Lei Yang经同事推荐,关注到一篇由苹果团队出品、正投稿ICLR 2026的arXiv论文。该论文所提出的全新benchmark与他近期研究高度契合,令他兴奋不已。
他当即暂停手头其他事务,全力投入该benchmark的适配工作。
然而,这个号称“小模型全面超越GPT-5、数据经人工严格把控”的视觉benchmark,竟暗藏荒谬的官方代码漏洞,且其GT(Ground Truth)错误率预估高达30%左右。
读到这里,你是否已感到匪夷所思?
但更令人震惊的还在后面——后续发展堪称一波三折,让人连连惊叹。
这场闹剧的荒谬程度逐步升级,直至Lei Yang公开发声质疑,最终促使论文撤稿。
Reddit上的围观网友也不禁摇头叹息:
我们曾见证BatchNorm、ResNet、Dropout、Transformer等革命性技术的诞生,然而进入大模型时代,学术生态却显得混乱不堪。
接下来,让我们深入剖析这起事件的来龙去脉。
这起荒诞事件的主角,正是苹果团队发表的论文《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。
该论文提出了一个基于谜题的视觉推理任务诊断基准(benchmark)。
巧的是,这个新benchmark恰好与Lei Yang近期研究方向高度吻合。
因此,Lei Yang读完论文后立刻暂停手头工作,着手进行适配。
出乎意料的是,经过一个周末的通宵适配,模型跑出的得分竟远低于预期,低得离谱。
“我非常沮丧,”Lei Yang回忆道,随即开始反复检查与尝试。
此时,异常逐渐浮出水面。Lei Yang发现官方代码中存在明显bug:
在调用VLM时,代码仅传入了图片路径字符串,并未包含图片本身。
有bug自然要修复。
然而,修复该bug后,模型的得分反而更低……
这一结果令Lei Yang目瞪口呆。他在社交媒体上发文称:“由于结果过于离谱,我不得不进行更多验证,最终结论仍是修复bug后得分更低。”
无奈之下,Lei Yang决定逐条分析错题,探究自家模型的错误原因。
他随机抽查了阶跃模型答错的前20道题,结果令人震惊:
其中6道题明显属于GT标注错误。
从错误类型判断,这些GT很可能是由模型自动生成且缺乏严格质检,导致大量幻觉内容混入。
这意味着,论文中那些看似精心挑选的展示内容,实则存在严重缺陷。
他初步估计,GT错误率可能高达30%。
于是,Lei Yang在GitHub上向论文作者反馈问题,明确指出错误所在。
六天后,作者仅简单回复几句,便直接关闭了issue。
这令Lei Yang气愤不已,随即组织语言予以回击。
然而,这起事件的荒谬程度仍在升级——
ICLR评审意见公布后,Lei Yang查阅了该论文收到的5条审稿意见,竟无一位审稿人指出GT质量问题,也无人发现论文示例中的幻觉与错误。
(附上Openreview链接:https://openreview.net/forum?id=pS9jc2zxQz)
愤怒之下,他撰写了一份详尽的公开评论。
评论中列举了GT错误实例,提醒ICLR审稿人及学术界,该数据集质量堪忧,极易误导研究方向。
在评论末尾,Lei Yang写道:
“我发表此评论,旨在避免其他研究者重蹈我的覆辙——从初见这一错误检测任务时的兴奋,到运行后的震惊与失望,再到追查底层GT问题时的沮丧——从而为大家节省宝贵的时间与精力。”
表面看是宣泄愤怒,实则无可奈何,只求警醒后人莫再踩坑。
众多网友对Lei Yang的举动表示赞赏:
最终,在这条公开评论发布的次日,论文作者便宣布撤稿,并删除了GitHub代码库。
近日,Lei Yang在多个平台分享了自己的踩坑经历,期望借此提醒广大研究者保持警惕,切勿盲目迷信表面包装,即便是大公司出品亦需审慎。
今天上午,论文作者在小红书平台现身回应。
他首先表示已与Lei Yang详细沟通,并对推动学术社区进步的所有人表示感谢与尊重。
以下为论文作者回应的要点梳理:
首先,关于数据质量问题,作者承认审核存在疏漏。
尽管对injected error样本进行了人工检查,却未对更关键的部分进行严格审核。
因此未能察觉,在将GT解答思路由GPT自动转换为分步骤CoT时出现了幻觉,导致step label产生错误。
这实质上承认了事件的核心问题——自动构建数据时质检严重缺失。
其次,关于论文中的example inference代码,作者解释称:
该项目中的example inference代码仅为一个dummy示例,并非正式演示代码。
在o3的输出示例中,可以证实模型确实接收了图片输入。
他补充道,收到Lei Yang提醒后,已修改dummy代码并回复了Lei Yang。
最后,他对当时直接关闭issue的行为表示诚挚歉意。
“当时已reopen并回复了新提出的问题,今后也将保持issue开放直至问题彻底解决。”
回应帖的最后一点写道:
“我们的初衷包括该benchmark的设计目的,均是为了推动各研究方向的发展。数据制作过程中出现了不应有的疏忽,但我们均是出于对这一方向的兴趣,利用业余时间投入该项目,并为此倾注了大量心血。我们将认真总结此次教训,再接再厉。”
参考链接:
[1]https://x.com/diyerxx/status/1994042370376032701
[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360
[4]https://openreview.net/forum?id=pS9jc2zxQz
[5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf
本文由主机测评网于2026-02-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260226594.html