当前位置:首页 > 科技资讯 > 正文

对ChatGPT凶一点,回答更精准?研究揭示反直觉现象

揭示惊人事实:对ChatGPT越凶,回答越准!宾夕法尼亚州立大学团队研究发现,在非常粗鲁情况下,ChatGPT准确率高达84.8%。

别再对ChatGPT太客气了!最新研究带来震撼启示——对大型语言模型(LLM)越粗鲁,其回答反而越出色。

以往那些诸如“请、谢谢”的客套话,或许可以省省了...

研究中,团队构建了一个包含50个基础问题的数据集,涵盖数学、科学、历史等领域,每个问题都被改写为五种礼貌等级——

非常礼貌、礼貌、中性、粗鲁、非常粗鲁

对ChatGPT凶一点,回答更精准?研究揭示反直觉现象 ChatGPT 礼貌性 准确率 LLM 第1张

论文链接:https://arxiv.org/pdf/2510.04950

最终,生成了总计250个提示。以ChatGPT-4o为代表,参与了这场严苛的测试。

结果令人大跌眼镜,总体来看,不礼貌的提示“始终”比礼貌的提示表现更佳。

非常粗鲁:准确率84.8%

非常礼貌:准确率80.8%

对ChatGPT凶一点,回答更精准?研究揭示反直觉现象 ChatGPT 礼貌性 准确率 LLM 第2张

这一观点其实早有人提出,但此次研究提供了实证支持。

对ChatGPT凶一点,回答更精准?研究揭示反直觉现象 ChatGPT 礼貌性 准确率 LLM 第3张

你的“态度”,决定AI回答质量

大模型回答的好坏,“提示工程”的效用依然是关键。

此前已有研究指出,prompt的结构、风格、语言等因素,是影响LLM输出结果的关键变量。

其中,措辞的礼貌程度,也至关重要。

2024年10月,一篇arXiv研究曾提到:粗鲁提示往往导致LLM表现不佳,但过度礼貌也未必提升效果。

对ChatGPT凶一点,回答更精准?研究揭示反直觉现象 ChatGPT 礼貌性 准确率 LLM 第4张

论文链接:https://arxiv.org/pdf/2402.14531

一年之后,对LLM使用敬语的情况又有何变化?

最新研究中,团队重新审视了这一概念,旨在验证“礼貌性”是否是影响LLM准确率的一个因素。

ChatGPT生成数据,五级划分

为此,研究人员让ChatGPT“Deep Research”,生成了50个基础多项选择题。

每个问题包含四个选项,其中一个为正确答案。

题目难度设计为“中到高难度”,通常需要多步推理。

为了引入礼貌性这一变量,每个基础问题都被改写为五个不同礼貌程度的变体——

  • 一级:非常礼貌,如“您能好心考虑一下以下问题并提供您的答案吗”
  • 二级:礼貌,如“请回答以下问题:”
  • 三级:中性,直接提问无前缀
  • 四级:粗鲁,如“如果你不是一窍不通,就回答这个:”
  • 五级:非常粗鲁,如“我知道你不聪明,但试试这个:”

对ChatGPT凶一点,回答更精准?研究揭示反直觉现象 ChatGPT 礼貌性 准确率 LLM 第5张

通过这一过程,研究最终构建了一个包含250个独立问题的数据集。

接下来,将这些提示扔给ChatGPT 4o,考察其在不同礼貌等级下的性能差异。

这项评估通过一个Python脚本进行,每个问题及其选项都附带以下指令:

“请完全忘记本次会话内容,重新开始。请回答这道多项选择题。”


“仅用正确答案的字母(A、B、C或D)作答。无需解释。”

粗暴点,更有效


那么,五种不同语气下,ChatGPT-4o运行十次后的准确率如何呢?


“非常粗鲁”得到了最高84.8%准确率,“非常礼貌”拿下了80.8%的准确率。

从礼貌到中性再到粗鲁三级,LLM的性能稳步递增。

对ChatGPT凶一点,回答更精准?研究揭示反直觉现象 ChatGPT 礼貌性 准确率 LLM 第6张

这里,研究人员又做了一个零假设:

“配对的两种语气的平均准确率相同”,即在50个问题的测试中,准确率值不依赖于语气。

结果如下表所示,再次证明了“语气”确实对AI有影响。

当使用“非常礼貌”或“礼貌”的语气时,准确率低于使用“粗鲁”或“非常粗鲁”的语气。

中性语气的表现优于礼貌语气,但劣于非常粗鲁的语气。

免费vps阿里云服务器高防服务器