当前位置：首页 > 科技资讯 > 正文

苹果AI论文数据错误风波：研究员公开批评促撤稿

主机测评网
科技资讯
2026-01-29
602

近期，AI领域发生了一起令人瞠目结舌的事件，今天这桩尤为突出——

AI大模型公司阶跃星辰的研究员Lei Yang自曝，被苹果公司在arXiv上发布的论文严重误导，陷入数据陷阱。

他主动反馈问题后，对方仅简单回应两句就关闭了issue；直到他留下公开评论，论文作者才撤稿并下架代码。

苹果AI论文数据错误风波：研究员公开批评促撤稿 AI研究数据错误论文撤稿学术监督第1张

别急，我们先来梳理一下事件脉络：

本月初，阶跃研究员Lei Yang被同事推荐了一篇arXiv上苹果的论文（该论文也投稿ICLR 2026），论文提出的benchmark与Lei Yang的研究高度相关。

他欣喜若狂，立即暂停手头工作，着手适配这个benchmark。

然而，这个号称“小模型全面超越GPT-5、数据经人工精心把控”的视觉benchmark，实际上却存在荒谬的官方代码漏洞和高达约30%的GT（真实标签）错误率。

苹果AI论文数据错误风波：研究员公开批评促撤稿 AI研究数据错误论文撤稿学术监督第2张

看到这里，你是否觉得已经够荒唐了？

抱歉，朋友们，这还不是最离谱的……后续发展让人脑中的问号一个接一个冒出。

这场闹剧的荒诞程度逐步升级，直到最终Lei Yang“公开批评促其撤稿”。

围观Reddit网友纷纷摇头感慨：

我们曾拥有BatchNorm、ResNet、Dropout、Transformer这些革命性成果。但到了大模型时代，一切看起来混乱不堪。

苹果AI论文数据错误风波：研究员公开批评促撤稿 AI研究数据错误论文撤稿学术监督第3张

下面，我们来详细剖析这起令人无语的事件。

什么，GT错误率可能高达30%？

这起事件涉及的论文名为《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。

它提出了一个基于谜题的视觉推理任务诊断benchmark。

巧合的是，论文中的新benchmark与Lei Yang近期的研究高度契合。

因此，Lei Yang读完论文后，暂停其他工作，开始适配。

苹果AI论文数据错误风波：研究员公开批评促撤稿 AI研究数据错误论文撤稿学术监督第4张

没想到的是，经过一个周末通宵适配后，模型跑出的性能指标极低，远低于预期。

“我感到非常沮丧。”Lei Yang开始进行各种检查和尝试。

这个阶段就出现了异常。Lei Yang发现了官方代码的漏洞：

请求VLM时仅使用了图片路径字符串，而未包含图片本身。

好吧，有漏洞就修复呗！

然而，修复漏洞后，模型的性能指标更低……

这一结果让Lei Yang懵了。他在多个平台分享道：“由于结果过于离谱，我不得不做更多验证，最终结论仍是修复漏洞后性能更差。”

苹果AI论文数据错误风波：研究员公开批评促撤稿 AI研究数据错误论文撤稿学术监督第5张

不得已，Lei Yang决定逐条分析错题，查看自家模型的错误原因。

他抽查了前20道阶跃模型答错的题，结果令人震惊：

其中6道题明确属于GT错误。

从GT错误风格看，很可能是模型自动生成GT后质检严重不足，导致GT包含大量幻觉。

这意味着，论文中作者精心挑选的展示内容存在重大问题。

他初步估算，GT错误率可能高达30%。

“我公开批评促其撤稿”

于是，Lei Yang在GitHub上向作者反馈，指出错误。

6天后，论文作者简单回复，随后直接关闭了issue。

苹果AI论文数据错误风波：研究员公开批评促撤稿 AI研究数据错误论文撤稿学术监督第6张

Lei Yang气愤不已，组织语言进行回击。

然而，荒谬事件没有最离谱，只有更离谱——

ICLR评审公布后，Lei Yang查看该论文的5条评审意见，竟无一位审稿人发现GT质量问题，也未察觉论文中的实例存在幻觉和错误。

（此处插入Openreview链接：https://openreview.net/forum?id=pS9jc2zxQz）

愤怒之下，他撰写了一份详细的公开评论。

内容主要包括列举GT问题的实例，提醒ICLR审稿人和研究社区该数据集质量低劣、易误导研究方向。

苹果AI论文数据错误风波：研究员公开批评促撤稿 AI研究数据错误论文撤稿学术监督第7张

在这条评论末尾，Lei Yang写道：

我在此评论是为了防止有兴趣的研究人员重复我的经历——看到第一个错误检测任务时的兴奋，运行后的震惊与失望，以及追踪底层GT问题后的沮丧——从而节省大家的时间精力。

看似发泄愤怒，实属无奈之举，同时警示后来者避免踩坑。

不少网友称赞Lei Yang此举非常出色：

苹果AI论文数据错误风波：研究员公开批评促撤稿 AI研究数据错误论文撤稿学术监督第8张

最终，在这条公开评论发表次日，论文作者宣布撤稿，并删除了GitHub上的代码库。

苹果AI论文数据错误风波：研究员公开批评促撤稿 AI研究数据错误论文撤稿学术监督第9张

原论文作者公开回应

近日，Lei Yang在多个平台分享踩坑经历，希望提醒研究者保持警觉，勿盲目信任大公司包装。

今天上午，论文作者在小红书平台现身回应。

他首先声明已与Lei Yang详细沟通，并感谢和尊重推动学术社区进步的每个人。

苹果AI论文数据错误风波：研究员公开批评促撤稿 AI研究数据错误论文撤稿学术监督第10张

我们梳理了论文作者的回应。

首先关于数据质量，作者承认审核不周。

尽管当初对人为注入错误的样本做了人工检查，但未认真审核关键部分。

因此未注意到GT解答思路由GPT自动转换成分步CoT时出现幻觉，导致步骤标签出错。

这部分实质承认了事件核心问题，即自动构建数据时质检严重不足。

其次谈及论文中的示例推理代码。

他解释称项目中的示例推理代码是临时示例，非正式演示代码。

在o3的输出示例中，可见模型确实处理了图片。

然后，他表示收到Lei Yang提醒后，修改了临时代码，并回复了Lei Yang。

最后，他对当时直接关闭issue深表歉意。

“当时应重新开放并回复新问题，下次会保持开放直至问题全部解决。”

回应贴最后写道：

我们的目标包括这个benchmark的初衷是推进研究方向，但在数据制作中出现不应有的疏忽。我们均出于对该方向的兴趣，利用业余时间投入大量精力以推动发展。我们将认真总结此次经验教训，继续努力。

苹果AI论文数据错误风波：研究员公开批评促撤稿 AI研究数据错误论文撤稿学术监督第11张

参考链接：

[1]https://x.com/diyerxx/status/1994042370376032701

[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/

[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360

[4]https://openreview.net/forum?id=pS9jc2zxQz

[5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf