当前位置：首页 > 科技资讯 > 正文

苹果AI论文被曝严重数据错误：研究员踩坑后公开评论促撤稿

主机测评网
科技资讯
2026-02-22
381

学术圈再爆乌龙事件，且今日这出尤为荒诞——

来自AI大模型公司阶跃星辰的研究员Lei Yang自述，自己不幸被苹果公司发布于arXiv平台上的一篇论文狠狠‘坑’了一回。

他尝试向作者反馈问题，却仅得到寥寥数语回复，随后issue便被关闭。直至他公开发表评论，对方才匆忙撤稿并下架代码。

苹果AI论文被曝严重数据错误：研究员踩坑后公开评论促撤稿 [

且慢，让我们先梳理一下整个事件的来龙去脉：

本月初，阶跃研究员Lei Yang经同事推荐，关注到一篇由苹果团队出品、正投稿ICLR 2026的arXiv论文。该论文所提出的全新benchmark与他近期研究高度契合，令他兴奋不已。

他当即暂停手头其他事务，全力投入该benchmark的适配工作。

然而，这个号称“小模型全面超越GPT-5、数据经人工严格把控”的视觉benchmark，竟暗藏荒谬的官方代码漏洞，且其GT（Ground Truth）错误率预估高达30%左右。

苹果AI论文被曝严重数据错误：研究员踩坑后公开评论促撤稿 [

读到这里，你是否已感到匪夷所思？

但更令人震惊的还在后面——后续发展堪称一波三折，让人连连惊叹。

这场闹剧的荒谬程度逐步升级，直至Lei Yang公开发声质疑，最终促使论文撤稿。

Reddit上的围观网友也不禁摇头叹息：

我们曾见证BatchNorm、ResNet、Dropout、Transformer等革命性技术的诞生，然而进入大模型时代，学术生态却显得混乱不堪。

苹果AI论文被曝严重数据错误：研究员踩坑后公开评论促撤稿 [

接下来，让我们深入剖析这起事件的来龙去脉。

GT错误率竟可能高达30%？

这起荒诞事件的主角，正是苹果团队发表的论文《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。

该论文提出了一个基于谜题的视觉推理任务诊断基准（benchmark）。

巧的是，这个新benchmark恰好与Lei Yang近期研究方向高度吻合。

因此，Lei Yang读完论文后立刻暂停手头工作，着手进行适配。

苹果AI论文被曝严重数据错误：研究员踩坑后公开评论促撤稿 [

出乎意料的是，经过一个周末的通宵适配，模型跑出的得分竟远低于预期，低得离谱。

“我非常沮丧，”Lei Yang回忆道，随即开始反复检查与尝试。

此时，异常逐渐浮出水面。Lei Yang发现官方代码中存在明显bug：

在调用VLM时，代码仅传入了图片路径字符串，并未包含图片本身。

有bug自然要修复。

然而，修复该bug后，模型的得分反而更低……

这一结果令Lei Yang目瞪口呆。他在社交媒体上发文称：“由于结果过于离谱，我不得不进行更多验证，最终结论仍是修复bug后得分更低。”

苹果AI论文被曝严重数据错误：研究员踩坑后公开评论促撤稿 [

无奈之下，Lei Yang决定逐条分析错题，探究自家模型的错误原因。

他随机抽查了阶跃模型答错的前20道题，结果令人震惊：

其中6道题明显属于GT标注错误。

从错误类型判断，这些GT很可能是由模型自动生成且缺乏严格质检，导致大量幻觉内容混入。

这意味着，论文中那些看似精心挑选的展示内容，实则存在严重缺陷。

他初步估计，GT错误率可能高达30%。

“我公开发声促使其撤稿”

于是，Lei Yang在GitHub上向论文作者反馈问题，明确指出错误所在。

六天后，作者仅简单回复几句，便直接关闭了issue。

苹果AI论文被曝严重数据错误：研究员踩坑后公开评论促撤稿 [

这令Lei Yang气愤不已，随即组织语言予以回击。

然而，这起事件的荒谬程度仍在升级——

ICLR评审意见公布后，Lei Yang查阅了该论文收到的5条审稿意见，竟无一位审稿人指出GT质量问题，也无人发现论文示例中的幻觉与错误。

（附上Openreview链接：https://openreview.net/forum?id=pS9jc2zxQz）

愤怒之下，他撰写了一份详尽的公开评论。

评论中列举了GT错误实例，提醒ICLR审稿人及学术界，该数据集质量堪忧，极易误导研究方向。

苹果AI论文被曝严重数据错误：研究员踩坑后公开评论促撤稿 [

在评论末尾，Lei Yang写道：

“我发表此评论，旨在避免其他研究者重蹈我的覆辙——从初见这一错误检测任务时的兴奋，到运行后的震惊与失望，再到追查底层GT问题时的沮丧——从而为大家节省宝贵的时间与精力。”

表面看是宣泄愤怒，实则无可奈何，只求警醒后人莫再踩坑。

众多网友对Lei Yang的举动表示赞赏：

苹果AI论文被曝严重数据错误：研究员踩坑后公开评论促撤稿 [

最终，在这条公开评论发布的次日，论文作者便宣布撤稿，并删除了GitHub代码库。

苹果AI论文被曝严重数据错误：研究员踩坑后公开评论促撤稿 [

论文作者公开回应

近日，Lei Yang在多个平台分享了自己的踩坑经历，期望借此提醒广大研究者保持警惕，切勿盲目迷信表面包装，即便是大公司出品亦需审慎。

今天上午，论文作者在小红书平台现身回应。

他首先表示已与Lei Yang详细沟通，并对推动学术社区进步的所有人表示感谢与尊重。

苹果AI论文被曝严重数据错误：研究员踩坑后公开评论促撤稿 [

以下为论文作者回应的要点梳理：

首先，关于数据质量问题，作者承认审核存在疏漏。

尽管对injected error样本进行了人工检查，却未对更关键的部分进行严格审核。

因此未能察觉，在将GT解答思路由GPT自动转换为分步骤CoT时出现了幻觉，导致step label产生错误。

这实质上承认了事件的核心问题——自动构建数据时质检严重缺失。

其次，关于论文中的example inference代码，作者解释称：

该项目中的example inference代码仅为一个dummy示例，并非正式演示代码。

在o3的输出示例中，可以证实模型确实接收了图片输入。

他补充道，收到Lei Yang提醒后，已修改dummy代码并回复了Lei Yang。

最后，他对当时直接关闭issue的行为表示诚挚歉意。

“当时已reopen并回复了新提出的问题，今后也将保持issue开放直至问题彻底解决。”

回应帖的最后一点写道：

“我们的初衷包括该benchmark的设计目的，均是为了推动各研究方向的发展。数据制作过程中出现了不应有的疏忽，但我们均是出于对这一方向的兴趣，利用业余时间投入该项目，并为此倾注了大量心血。我们将认真总结此次教训，再接再厉。”

苹果AI论文被曝严重数据错误：研究员踩坑后公开评论促撤稿 [

参考链接：

[1]https://x.com/diyerxx/status/1994042370376032701

[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/

[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360

[4]https://openreview.net/forum?id=pS9jc2zxQz

[5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf