当前位置：首页 > 科技资讯 > 正文

对ChatGPT凶一点，回答更精准？研究揭示反直觉现象

主机测评网
科技资讯
2026-05-04
787

揭示惊人事实：对ChatGPT越凶，回答越准！宾夕法尼亚州立大学团队研究发现，在非常粗鲁情况下，ChatGPT准确率高达84.8%。

别再对ChatGPT太客气了！最新研究带来震撼启示——对大型语言模型（LLM）越粗鲁，其回答反而越出色。

以往那些诸如“请、谢谢”的客套话，或许可以省省了...

研究中，团队构建了一个包含50个基础问题的数据集，涵盖数学、科学、历史等领域，每个问题都被改写为五种礼貌等级——

非常礼貌、礼貌、中性、粗鲁、非常粗鲁

对ChatGPT凶一点，回答更精准？研究揭示反直觉现象 ChatGPT 礼貌性准确率 LLM 第1张

论文链接：https://arxiv.org/pdf/2510.04950

最终，生成了总计250个提示。以ChatGPT-4o为代表，参与了这场严苛的测试。

结果令人大跌眼镜，总体来看，不礼貌的提示“始终”比礼貌的提示表现更佳。

非常粗鲁：准确率84.8%

非常礼貌：准确率80.8%

对ChatGPT凶一点，回答更精准？研究揭示反直觉现象 ChatGPT 礼貌性准确率 LLM 第2张

这一观点其实早有人提出，但此次研究提供了实证支持。

对ChatGPT凶一点，回答更精准？研究揭示反直觉现象 ChatGPT 礼貌性准确率 LLM 第3张

你的“态度”，决定AI回答质量

大模型回答的好坏，“提示工程”的效用依然是关键。

此前已有研究指出，prompt的结构、风格、语言等因素，是影响LLM输出结果的关键变量。

其中，措辞的礼貌程度，也至关重要。

2024年10月，一篇arXiv研究曾提到：粗鲁提示往往导致LLM表现不佳，但过度礼貌也未必提升效果。

对ChatGPT凶一点，回答更精准？研究揭示反直觉现象 ChatGPT 礼貌性准确率 LLM 第4张

论文链接：https://arxiv.org/pdf/2402.14531

一年之后，对LLM使用敬语的情况又有何变化？

最新研究中，团队重新审视了这一概念，旨在验证“礼貌性”是否是影响LLM准确率的一个因素。

ChatGPT生成数据，五级划分

为此，研究人员让ChatGPT“Deep Research”，生成了50个基础多项选择题。

每个问题包含四个选项，其中一个为正确答案。

题目难度设计为“中到高难度”，通常需要多步推理。

为了引入礼貌性这一变量，每个基础问题都被改写为五个不同礼貌程度的变体——

一级：非常礼貌，如“您能好心考虑一下以下问题并提供您的答案吗”
二级：礼貌，如“请回答以下问题：”
三级：中性，直接提问无前缀
四级：粗鲁，如“如果你不是一窍不通，就回答这个：”
五级：非常粗鲁，如“我知道你不聪明，但试试这个：”

对ChatGPT凶一点，回答更精准？研究揭示反直觉现象 ChatGPT 礼貌性准确率 LLM 第5张

通过这一过程，研究最终构建了一个包含250个独立问题的数据集。

接下来，将这些提示扔给ChatGPT 4o，考察其在不同礼貌等级下的性能差异。

这项评估通过一个Python脚本进行，每个问题及其选项都附带以下指令：

“请完全忘记本次会话内容，重新开始。请回答这道多项选择题。”

“仅用正确答案的字母（A、B、C或D）作答。无需解释。”

粗暴点，更有效

那么，五种不同语气下，ChatGPT-4o运行十次后的准确率如何呢？

“非常粗鲁”得到了最高84.8%准确率，“非常礼貌”拿下了80.8%的准确率。

从礼貌到中性再到粗鲁三级，LLM的性能稳步递增。

对ChatGPT凶一点，回答更精准？研究揭示反直觉现象 ChatGPT 礼貌性准确率 LLM 第6张

这里，研究人员又做了一个零假设：

“配对的两种语气的平均准确率相同”，即在50个问题的测试中，准确率值不依赖于语气。

结果如下表所示，再次证明了“语气”确实对AI有影响。

当使用“非常礼貌”或“礼貌”的语气时，准确率低于使用“粗鲁”或“非常粗鲁”的语气。

中性语气的表现优于礼貌语气，但劣于非常粗鲁的语气。

免费vps 阿里云服务器高防服务器