揭示惊人事实:对ChatGPT越凶,回答越准!宾夕法尼亚州立大学团队研究发现,在非常粗鲁情况下,ChatGPT准确率高达84.8%。
别再对ChatGPT太客气了!最新研究带来震撼启示——对大型语言模型(LLM)越粗鲁,其回答反而越出色。
以往那些诸如“请、谢谢”的客套话,或许可以省省了...
研究中,团队构建了一个包含50个基础问题的数据集,涵盖数学、科学、历史等领域,每个问题都被改写为五种礼貌等级——
非常礼貌、礼貌、中性、粗鲁、非常粗鲁
论文链接:https://arxiv.org/pdf/2510.04950
最终,生成了总计250个提示。以ChatGPT-4o为代表,参与了这场严苛的测试。
结果令人大跌眼镜,总体来看,不礼貌的提示“始终”比礼貌的提示表现更佳。
非常粗鲁:准确率84.8%
非常礼貌:准确率80.8%
这一观点其实早有人提出,但此次研究提供了实证支持。
大模型回答的好坏,“提示工程”的效用依然是关键。
此前已有研究指出,prompt的结构、风格、语言等因素,是影响LLM输出结果的关键变量。
其中,措辞的礼貌程度,也至关重要。
2024年10月,一篇arXiv研究曾提到:粗鲁提示往往导致LLM表现不佳,但过度礼貌也未必提升效果。
论文链接:https://arxiv.org/pdf/2402.14531
一年之后,对LLM使用敬语的情况又有何变化?
最新研究中,团队重新审视了这一概念,旨在验证“礼貌性”是否是影响LLM准确率的一个因素。
为此,研究人员让ChatGPT“Deep Research”,生成了50个基础多项选择题。
每个问题包含四个选项,其中一个为正确答案。
题目难度设计为“中到高难度”,通常需要多步推理。
为了引入礼貌性这一变量,每个基础问题都被改写为五个不同礼貌程度的变体——
通过这一过程,研究最终构建了一个包含250个独立问题的数据集。
接下来,将这些提示扔给ChatGPT 4o,考察其在不同礼貌等级下的性能差异。
这项评估通过一个Python脚本进行,每个问题及其选项都附带以下指令:
“请完全忘记本次会话内容,重新开始。请回答这道多项选择题。”
“仅用正确答案的字母(A、B、C或D)作答。无需解释。”
那么,五种不同语气下,ChatGPT-4o运行十次后的准确率如何呢?
“非常粗鲁”得到了最高84.8%准确率,“非常礼貌”拿下了80.8%的准确率。
从礼貌到中性再到粗鲁三级,LLM的性能稳步递增。
这里,研究人员又做了一个零假设:
“配对的两种语气的平均准确率相同”,即在50个问题的测试中,准确率值不依赖于语气。
结果如下表所示,再次证明了“语气”确实对AI有影响。
当使用“非常礼貌”或“礼貌”的语气时,准确率低于使用“粗鲁”或“非常粗鲁”的语气。
中性语气的表现优于礼貌语气,但劣于非常粗鲁的语气。 免费vps阿里云服务器高防服务器
本文由主机测评网于2026-05-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260542686.html