近期,AI领域发生了一起令人瞠目结舌的事件,今天这桩尤为突出——
AI大模型公司阶跃星辰的研究员Lei Yang自曝,被苹果公司在arXiv上发布的论文严重误导,陷入数据陷阱。
他主动反馈问题后,对方仅简单回应两句就关闭了issue;直到他留下公开评论,论文作者才撤稿并下架代码。
别急,我们先来梳理一下事件脉络:
本月初,阶跃研究员Lei Yang被同事推荐了一篇arXiv上苹果的论文(该论文也投稿ICLR 2026),论文提出的benchmark与Lei Yang的研究高度相关。
他欣喜若狂,立即暂停手头工作,着手适配这个benchmark。
然而,这个号称“小模型全面超越GPT-5、数据经人工精心把控”的视觉benchmark,实际上却存在荒谬的官方代码漏洞和高达约30%的GT(真实标签)错误率。
看到这里,你是否觉得已经够荒唐了?
抱歉,朋友们,这还不是最离谱的……后续发展让人脑中的问号一个接一个冒出。
这场闹剧的荒诞程度逐步升级,直到最终Lei Yang“公开批评促其撤稿”。
围观Reddit网友纷纷摇头感慨:
我们曾拥有BatchNorm、ResNet、Dropout、Transformer这些革命性成果。但到了大模型时代,一切看起来混乱不堪。
下面,我们来详细剖析这起令人无语的事件。
这起事件涉及的论文名为《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。
它提出了一个基于谜题的视觉推理任务诊断benchmark。
巧合的是,论文中的新benchmark与Lei Yang近期的研究高度契合。
因此,Lei Yang读完论文后,暂停其他工作,开始适配。
没想到的是,经过一个周末通宵适配后,模型跑出的性能指标极低,远低于预期。
“我感到非常沮丧。”Lei Yang开始进行各种检查和尝试。
这个阶段就出现了异常。Lei Yang发现了官方代码的漏洞:
请求VLM时仅使用了图片路径字符串,而未包含图片本身。
好吧,有漏洞就修复呗!
然而,修复漏洞后,模型的性能指标更低……
这一结果让Lei Yang懵了。他在多个平台分享道:“由于结果过于离谱,我不得不做更多验证,最终结论仍是修复漏洞后性能更差。”
不得已,Lei Yang决定逐条分析错题,查看自家模型的错误原因。
他抽查了前20道阶跃模型答错的题,结果令人震惊:
其中6道题明确属于GT错误。
从GT错误风格看,很可能是模型自动生成GT后质检严重不足,导致GT包含大量幻觉。
这意味着,论文中作者精心挑选的展示内容存在重大问题。
他初步估算,GT错误率可能高达30%。
于是,Lei Yang在GitHub上向作者反馈,指出错误。
6天后,论文作者简单回复,随后直接关闭了issue。
Lei Yang气愤不已,组织语言进行回击。
然而,荒谬事件没有最离谱,只有更离谱——
ICLR评审公布后,Lei Yang查看该论文的5条评审意见,竟无一位审稿人发现GT质量问题,也未察觉论文中的实例存在幻觉和错误。
(此处插入Openreview链接:https://openreview.net/forum?id=pS9jc2zxQz)
愤怒之下,他撰写了一份详细的公开评论。
内容主要包括列举GT问题的实例,提醒ICLR审稿人和研究社区该数据集质量低劣、易误导研究方向。
在这条评论末尾,Lei Yang写道:
我在此评论是为了防止有兴趣的研究人员重复我的经历——看到第一个错误检测任务时的兴奋,运行后的震惊与失望,以及追踪底层GT问题后的沮丧——从而节省大家的时间精力。
看似发泄愤怒,实属无奈之举,同时警示后来者避免踩坑。
不少网友称赞Lei Yang此举非常出色:
最终,在这条公开评论发表次日,论文作者宣布撤稿,并删除了GitHub上的代码库。
近日,Lei Yang在多个平台分享踩坑经历,希望提醒研究者保持警觉,勿盲目信任大公司包装。
今天上午,论文作者在小红书平台现身回应。
他首先声明已与Lei Yang详细沟通,并感谢和尊重推动学术社区进步的每个人。
我们梳理了论文作者的回应。
首先关于数据质量,作者承认审核不周。
尽管当初对人为注入错误的样本做了人工检查,但未认真审核关键部分。
因此未注意到GT解答思路由GPT自动转换成分步CoT时出现幻觉,导致步骤标签出错。
这部分实质承认了事件核心问题,即自动构建数据时质检严重不足。
其次谈及论文中的示例推理代码。
他解释称项目中的示例推理代码是临时示例,非正式演示代码。
在o3的输出示例中,可见模型确实处理了图片。
然后,他表示收到Lei Yang提醒后,修改了临时代码,并回复了Lei Yang。
最后,他对当时直接关闭issue深表歉意。
“当时应重新开放并回复新问题,下次会保持开放直至问题全部解决。”
回应贴最后写道:
我们的目标包括这个benchmark的初衷是推进研究方向,但在数据制作中出现不应有的疏忽。我们均出于对该方向的兴趣,利用业余时间投入大量精力以推动发展。我们将认真总结此次经验教训,继续努力。
参考链接:
[1]https://x.com/diyerxx/status/1994042370376032701
[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360
[4]https://openreview.net/forum?id=pS9jc2zxQz
[5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf
本文由主机测评网于2026-01-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260121638.html