当前位置:首页 > 科技资讯 > 正文

苹果AI论文数据错误风波:研究员公开批评促撤稿

近期,AI领域发生了一起令人瞠目结舌的事件,今天这桩尤为突出——

AI大模型公司阶跃星辰的研究员Lei Yang自曝,被苹果公司在arXiv上发布的论文严重误导,陷入数据陷阱。

他主动反馈问题后,对方仅简单回应两句就关闭了issue;直到他留下公开评论,论文作者才撤稿并下架代码。

苹果AI论文数据错误风波:研究员公开批评促撤稿 AI研究  数据错误 论文撤稿 学术监督 第1张

别急,我们先来梳理一下事件脉络:

本月初,阶跃研究员Lei Yang被同事推荐了一篇arXiv上苹果的论文(该论文也投稿ICLR 2026),论文提出的benchmark与Lei Yang的研究高度相关。

他欣喜若狂,立即暂停手头工作,着手适配这个benchmark。

然而,这个号称“小模型全面超越GPT-5、数据经人工精心把控”的视觉benchmark,实际上却存在荒谬的官方代码漏洞和高达约30%的GT(真实标签)错误率

苹果AI论文数据错误风波:研究员公开批评促撤稿 AI研究  数据错误 论文撤稿 学术监督 第2张

看到这里,你是否觉得已经够荒唐了?

抱歉,朋友们,这还不是最离谱的……后续发展让人脑中的问号一个接一个冒出。

这场闹剧的荒诞程度逐步升级,直到最终Lei Yang“公开批评促其撤稿”。

围观Reddit网友纷纷摇头感慨:

我们曾拥有BatchNorm、ResNet、Dropout、Transformer这些革命性成果。但到了大模型时代,一切看起来混乱不堪。

苹果AI论文数据错误风波:研究员公开批评促撤稿 AI研究  数据错误 论文撤稿 学术监督 第3张

下面,我们来详细剖析这起令人无语的事件。

什么,GT错误率可能高达30%?

这起事件涉及的论文名为《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。

它提出了一个基于谜题的视觉推理任务诊断benchmark。

巧合的是,论文中的新benchmark与Lei Yang近期的研究高度契合。

因此,Lei Yang读完论文后,暂停其他工作,开始适配。

苹果AI论文数据错误风波:研究员公开批评促撤稿 AI研究  数据错误 论文撤稿 学术监督 第4张

没想到的是,经过一个周末通宵适配后,模型跑出的性能指标极低,远低于预期。

“我感到非常沮丧。”Lei Yang开始进行各种检查和尝试。

这个阶段就出现了异常。Lei Yang发现了官方代码的漏洞

请求VLM时仅使用了图片路径字符串,而未包含图片本身。

好吧,有漏洞就修复呗!

然而,修复漏洞后,模型的性能指标更低……

这一结果让Lei Yang懵了。他在多个平台分享道:“由于结果过于离谱,我不得不做更多验证,最终结论仍是修复漏洞后性能更差。”

苹果AI论文数据错误风波:研究员公开批评促撤稿 AI研究  数据错误 论文撤稿 学术监督 第5张

不得已,Lei Yang决定逐条分析错题,查看自家模型的错误原因。

他抽查了前20道阶跃模型答错的题,结果令人震惊:

其中6道题明确属于GT错误。

从GT错误风格看,很可能是模型自动生成GT后质检严重不足,导致GT包含大量幻觉。

这意味着,论文中作者精心挑选的展示内容存在重大问题。

他初步估算,GT错误率可能高达30%

“我公开批评促其撤稿”

于是,Lei Yang在GitHub上向作者反馈,指出错误。

6天后,论文作者简单回复,随后直接关闭了issue

苹果AI论文数据错误风波:研究员公开批评促撤稿 AI研究  数据错误 论文撤稿 学术监督 第6张

Lei Yang气愤不已,组织语言进行回击。

然而,荒谬事件没有最离谱,只有更离谱——

ICLR评审公布后,Lei Yang查看该论文的5条评审意见,竟无一位审稿人发现GT质量问题,也未察觉论文中的实例存在幻觉和错误

(此处插入Openreview链接:https://openreview.net/forum?id=pS9jc2zxQz)

愤怒之下,他撰写了一份详细的公开评论。

内容主要包括列举GT问题的实例,提醒ICLR审稿人和研究社区该数据集质量低劣、易误导研究方向。

苹果AI论文数据错误风波:研究员公开批评促撤稿 AI研究  数据错误 论文撤稿 学术监督 第7张

在这条评论末尾,Lei Yang写道:

我在此评论是为了防止有兴趣的研究人员重复我的经历——看到第一个错误检测任务时的兴奋,运行后的震惊与失望,以及追踪底层GT问题后的沮丧——从而节省大家的时间精力

看似发泄愤怒,实属无奈之举,同时警示后来者避免踩坑。

不少网友称赞Lei Yang此举非常出色:

苹果AI论文数据错误风波:研究员公开批评促撤稿 AI研究  数据错误 论文撤稿 学术监督 第8张

最终,在这条公开评论发表次日,论文作者宣布撤稿,并删除了GitHub上的代码库

苹果AI论文数据错误风波:研究员公开批评促撤稿 AI研究  数据错误 论文撤稿 学术监督 第9张

原论文作者公开回应

近日,Lei Yang在多个平台分享踩坑经历,希望提醒研究者保持警觉,勿盲目信任大公司包装。

今天上午,论文作者在小红书平台现身回应。

他首先声明已与Lei Yang详细沟通,并感谢和尊重推动学术社区进步的每个人。

苹果AI论文数据错误风波:研究员公开批评促撤稿 AI研究  数据错误 论文撤稿 学术监督 第10张

我们梳理了论文作者的回应。

首先关于数据质量,作者承认审核不周

尽管当初对人为注入错误的样本做了人工检查,但未认真审核关键部分。

因此未注意到GT解答思路由GPT自动转换成分步CoT时出现幻觉,导致步骤标签出错。

这部分实质承认了事件核心问题,即自动构建数据时质检严重不足。

其次谈及论文中的示例推理代码

他解释称项目中的示例推理代码是临时示例,非正式演示代码。

在o3的输出示例中,可见模型确实处理了图片。

然后,他表示收到Lei Yang提醒后,修改了临时代码,并回复了Lei Yang。

最后,他对当时直接关闭issue深表歉意。

“当时应重新开放并回复新问题,下次会保持开放直至问题全部解决。”

回应贴最后写道:

我们的目标包括这个benchmark的初衷是推进研究方向,但在数据制作中出现不应有的疏忽。我们均出于对该方向的兴趣,利用业余时间投入大量精力以推动发展。我们将认真总结此次经验教训,继续努力。

苹果AI论文数据错误风波:研究员公开批评促撤稿 AI研究  数据错误 论文撤稿 学术监督 第11张

参考链接:

[1]https://x.com/diyerxx/status/1994042370376032701

[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/

[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360

[4]https://openreview.net/forum?id=pS9jc2zxQz

[5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf