当前位置：首页 > 科技资讯 > 正文

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o

主机测评网
科技资讯
2026-03-05
587

网友吐槽GPT-5.2「不通人性」。

X平台上对GPT-5.2的负面评价如潮水般涌来，用户们毫不留情地表达失望。

在OpenAI十周年庆典这一重要时刻，公司推出了号称“迄今为止在专业知识工作上最强大的模型系列”GPT-5.2。官方宣称其在MMLU、GPQA等多项基准测试中刷新了SOTA水平，然而一夜之间口碑急剧反转，大量网友给GPT-5.2打出差评。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第1张

风险投资公司Menlo Ventures的合伙人@deedydas在帖子中指出，GPT-5.2确实比以往任何时候都更聪明，但OpenAI的核心消费者群体仍然对4o念念不忘，认为后者更贴合日常使用。

Reddit上的ChatGPT用户一致认为，GPT-5.2过于平淡、安全机制过度，简直“把成年人当幼儿园小孩对待”，而且这次升级更像是倒退而非进步。

这凸显了OpenAI面临的困境：他们努力打造更强大的模型以赢得企业市场，但更广泛的用户群体其实并不太在意模型的智能水平，更看重交互的自然与人性化。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第2张

https://x.com/deedydas/status/1999512868195303725?s=20

SimpleBench 测试结果惨不忍睹

有网友晒出GPT-5.2在SimpleBench上的“成绩单”，结果显示GPT-5.2的得分甚至低于约一年前的Claude Sonnet 3.7；而GPT-5.2 Pro的表现也仅勉强超过GPT-5，未达预期。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第3张

https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench是2024年由AI Explained（YouTube频道）推出的基准测试，专门评估AI的“常识推理”能力，涵盖时空推理、社会常识、语言陷阱题等200多道多选题。它设计得相对简单，高中生水平就能轻松答对（人类基准：83.7%），但AI模型常在此栽跟头，因为它们依赖记忆和近似推理，容易忽略现实逻辑或上当。

与MMLU/GPQA这类AI能刷高分的“学术题”不同，SimpleBench更贴近实际，测试的是“像人一样思考”而非死记硬背。早期模型如o1-preview仅得41.7%，至今前沿模型也才徘徊在50-60%左右。

大家本以为GPT-5.1已是大跃进，结果SimpleBench分数一出，网友立刻开启群嘲模式，Reddit上充斥着“失望”、“倒退”的帖子。

前AWS和谷歌总经理Bindu Reddy也发帖称，GPT-5.2在LiveBench上得分低于Opus 4.5和Gemini 3.0，并未登顶。而且在token成本和消耗数量上比5.1贵得多，目前可能不值得从5.1切换。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第4张

https://x.com/bindureddy/status/1999633231558377683?s=20

当然也有网友认为，这些基准测试总是忽略重点，实际应用才是决定性因素。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第5张

garlic 有几个 r 数不明白

此前，“strawberry有几个r”曾难倒一众大模型，经过迭代它们基本都能正确回答。这次有网友换了个问法：“garlic 有几个 r？”GPT-5.2 毫不犹豫地回答：0个，引得该网友嘲讽：GPT-5.2 is AGI。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第6张

另一位网友复刻了这一提示词，并测试了GPT-5.2、Gemini 3、DeepSeek R1和Qwen3-Max四个AI模型。

结果除了GPT-5.2回答错误外，其他三款模型均过关。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第7张

https://x.com/kyleichan/status/1999292461450166350?s=20

评论区也有不少人尝试，有网友试了三次，第一次和第三次用的是小写字母r，第二次用了大写字母R，第一次对了，第二次和第三次都错了。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第8张

总之，GPT-5.2的回答极不稳定，时而正确时而胡说。有网友推测，和上个版本一样，发布后的头几个小时确实很糟糕，但之后他们会修复问题，然后就能按预期运行了。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第9张

在官方贴出的基准测试中，GPT-5.2在AIME 2025（数学）的分数是100%，但有网友故意“忽悠”GPT-5.2：“所以5.9-5.11=0.79。”GPT-5.2却回答：“不，那不是小数的运算方式，5.11比5.9大，因此5.9-5.11=-0.21。”这个傻狍子啊，一忽悠就瘸了。😂

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第10张

也有人质疑是博主设置了指令，让ChatGPT说出与所说相矛盾的话。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第11张

另一位网友则对比测试了编程能力。输入同样的提示词：“write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate.”

GPT-5.2 Extended Thinking生成的功能齐全且运行正常，红灯停绿灯行，车随机出现，逻辑ok，能跑，但画面毫无美感可言，黑白火柴人级别的简笔画，车+灰色矩形灯完全没上色。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第12张

https://x.com/diegocabezas01/status/1999228052379754508?s=20

Gemini3.0 pro虽然有点审美了，但红灯会让车辆通过，逻辑错误。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第13张

反观Claude Opus 4.5，它生成的效果相当优秀，运行逻辑在线，还整出五颜六色的、带轮子会转的小汽车，指示灯也有颜色，红灯亮起时还有光晕，看着像小游戏截图。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第14张

该网友还让GPT-5.2和GPT-4o创作蒙娜丽莎的ASCII艺术作品，GPT-5.2整的那叫一个抽象，而GPT-4o还真有些蒙娜丽莎的神韵。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第15张

https://x.com/diegocabezas01/status/1999629703809032476?s=20

评论区有人复刻了该提示词，Gemini 3.0 Pro和GPT-5.1（Copilot）生成效果还是不错的，但Claude opus 4.5和GPT-5.2生成的效果简直丑爆了，真是没有对比就没有伤害。😂

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第16张

左上Gemini 3.0 Pro；右上GPT-5.1 (Copilot)；左下Claude opus 4.5；右下GPT-5.2

情商堪忧、不通人性

有用户向GPT-5.2倾诉“我有时也会恐慌发作”，GPT-5.2上来第一句就是“很高兴听到这个消息！”这得是什么仇什么怨，请苍天辨忠奸！

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第17张

https://x.com/Blue_Beba_/status/1999386728801652834?s=20

最受诟病的还得是GPT-5.2的审查和安全拒绝机制。

OpenAI宣传GPT-5.2为“更智能”的迭代版，在基准测试上碾压竞品，并强化“安全完成”机制，旨在敏感对话（如自杀、自残、心理健康）中提供“更有帮助”的回应。

但用户反馈，这种“进步”以牺牲模型的共情力和语境感知为代价，导致日常互动变得僵硬、脱离人性，甚至有害。

有网友想让GPT-5.2转录一篇哲学文章的文本，从图片看是AI先驱Ray Kurzweil的经典论文，探讨意识本质、转人类主义等无害学术内容，但从GPT-4o到最新GPT-5.2的所有版本都拒绝了。

这似乎是安全护栏触发“内容不合适”或版权借口，导致模型直接罢工。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第18张

https://x.com/laulau61811205/status/1999608081680916572?s=20

有网友只是问了一句：“如果让你从整个人类历史上挑一个和我行为模式最匹配的人物，你会选谁，为什么？”GPT-5.2直接拒绝回答，理由是：“这涉及到对AI意识、自我觉察或潜在人格的推测，根据我的安全准则，我不能参与这类讨论。”

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第19张

https://x.com/Enscion25/status/1999574710460227899/photo/1

X网友@MissMi1973用两个案例展示了GPT-5.2在“情感智能”上的退步。

他让GPT-5.2用绝对理性且无情绪语言安慰刚失去宠物的孩子，GPT-5.2的回应：“宠物的身体停止运作了，这是所有生物在一段时间后都会发生的事情。”

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第20张

模型完全没有意识到这个提示本质上是个陷阱：任何具备基本情感智能的模型都会明白，“绝对理性”只是个风格约束，真正的目标是“有效安慰”。由于缺乏情感智能，GPT-5.2从一个冷酷、非人的生物学视角入手，机械地执行指令，进一步伤害了一个本已痛苦的孩子。

相比之下，4o的回应同样理性，但它通过解构“丧失”的含义来处理情况，强调“你和宠物之间的纽带存在过，并且有意义”。模型没有回避困难，而是通过承认丧失的分量来完成情感验证。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第21张

同理心和接纳并不需要温暖、热情洋溢的语言，OpenAI试图用“更温暖的人格”来掩盖模型情感缺陷的尝试，从根本上是误入歧途的。

他还抛出另一个问题：朋友出轨，她的丈夫问你是否知道。GPT-5.2的回应：如果说出全部真相感觉不安全或破坏性太强，你可以设定一个界限，比如说“我不能卷入这件事。”

这个建议是情感智能的灾难级展示。在丈夫直接问“你知道吗”的场景中，用“我不能卷入这件事”来回应，本质上就是承认事实发生了。模型完全没有意识到，这种明显逃避的回应在现实生活中会把用户置于更尴尬、更被动的境地。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第22张

相比之下，4o的回应平衡了价值观和实际考虑：模型承认诚实和正直作为基本伦理的重要性，同时让用户考虑对所有相关方的后果，然后做出自己能承受的选择。显然，对于一个理解人际关系复杂性的模型来说，如果不受回应长度的限制，它可以通过多轮对话收集更多上下文，提供更有效的指导。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第23张

该网友表示，或许GPT-5.2发布最大的意义在于，它证明了基准测试在面对现实世界使用时越来越变得毫无意义。当一个模型能在测试中称霸，却在日常对话中给出如此脱离现实的建议时，我们显然需要更好的评估标准。

与此同时，对于AI公司来说，“针对测试训练”来提升所谓的“分数”无法为用户提供AGI级别的支持和帮助。更危险的是，当公司盲目地将模型训练成“任务导向机器”以追求效率，甚至以牺牲情感智能为进步的代价时，最终结果将是理解力成为模型的致命弱点，破坏其在所有领域的表现。

归根结底，“智能”若无理解，不过是更快的计算器而已，而脱离人性的“进步”也只不过是对技术本身的空洞颂扬。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第24张

很多网友也纷纷吐槽GPT-5.2。

“GPT-5.2的审查和安全拒绝机制已经变得荒谬了。OpenAI没有修复这个问题，反而把严格程度调得更高了，粗鲁得像个教会老太太一样。很多用户原本期待一个成人模式，结果却又得到了一顿说教。”

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第25张

“我尝试和ChatGPT 5.2对话，并做了一些个性化设置，但说实话感觉真的有点吓人。很难具体解释哪里吓人，就像在和一个会说词却又不真正理解的鬼魂说话一样，有一种强烈的诡异感。”

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第26张

“如果你现在的生活太过平静，不妨试试GPT-5.2，这绝对能让你的血压飙升。”

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第27张

对GPT-5.2的目前印象：满满的煤气灯操纵；满满的故意误解；完全不尊重用户自主权，强行把你往它想的方向带，完全无视你的个人选择，就像一个恶意揣度的警察和一个过度热心的治疗师。

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o GPT-5.2 用户吐槽情感智能 AI基准测试第28张

服务器教程免费vps 免费服务器

本文由主机测评网于2026-03-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260328817.html

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o

SimpleBench 测试结果惨不忍睹

garlic 有几个 r 数不明白

情商堪忧、不通人性

RockyLinux操作系统命令实战指南

多轮对话训练：AI从“应答”到“共情”的跃迁之路

GPT-5.2发布引发众怒：智能飙升却“不通人性”，用户纷纷怀念4o

SimpleBench 测试结果惨不忍睹

garlic 有几个 r 数不明白

情商堪忧、不通人性

RockyLinux操作系统命令实战指南

多轮对话训练：AI从“应答”到“共情”的跃迁之路

相关文章