注意你的语气：提示词礼貌程度如何影响大语言模型的准确性

论文来源：Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy（Yuhan Zhou, Tom Bonnier, Rebecca Saleme, Nikhil Ranade, Kumo.AI）

一、引言：礼貌用语与 AI 输出的关系

在与大语言模型（LLM）交互时，提示词（Prompt）的措辞方式对模型输出质量的影响，一直是研究者关注的焦点。近年来，随着 ChatGPT、Claude、Gemini 等对话式 AI 系统的广泛应用，用户发现一个小小的措辞变化——比如在提示词中加入"请"字、使用感叹号、或者表达鼓励——就可能让模型的回答质量发生显著变化。

这种"提示词礼貌性"（Prompt Politeness）的研究，试图回答一个看似简单却意义深远的问题：我们对 AI 说话的方式，会影响 AI 回答的质量吗？

已有的研究已经探索了在提示词中加入情感化或鼓励性语言的影响，多数研究发现礼貌的提示词往往能带来更好的模型表现。然而，这些研究结论并不一致：有些研究发现了相反的趋势，还有研究发现礼貌程度对模型输出几乎没有影响。更为关键的是，现有研究大多只关注某一种特定的语言礼貌变体，且只在少数几种 LLM 上进行测试，缺乏系统性和广泛性。

二、研究方法：大规模系统性评估

为了填补这一研究空白，来自 Kumo.AI 的研究团队开展了一项迄今为止规模最大的系统性研究。他们设计了一个多维度的大规模实验，覆盖了以下关键维度：

72 个不同的 LLM 模型：涵盖不同规模、不同架构、不同开发者的模型，包括开源和闭源模型，确保结论的广泛适用性；
20 种礼貌变体：从非常礼貌（如"请问您能否……"）到中性（直接的指令式表达）到非常不礼貌（命令式或贬低式语气），涵盖多种语言维度；
6 个不同的基准测试（Benchmark）：覆盖数学推理、常识问答、代码生成、逻辑推理等多个领域，全面评估模型在不同任务上的表现。

通过这种系统性的交叉设计（72 × 20 × 6），研究团队获得了超过 8,000 个模型-礼貌-基准组合的测试结果，为揭示提示词礼貌性与模型准确性之间的关系提供了前所未有的数据基础。

三、核心发现：礼貌与准确性的微妙关系

研究的核心发现是：提示词的礼貌程度与模型准确性之间的关系，远比想象的复杂和微妙。具体来说：

    关键统计数据
    41% 的情况下，特定的礼貌变体能够提升模型的准确性
28% 的情况下，礼貌变体会降低模型的性能
31% 的情况下，礼貌变体没有统计上显著的影响

  

这意味着，选择一种适当的礼貌程度对模型性能有着显著影响——但并没有一种"万能"的礼貌策略能适用于所有场景。提示词礼貌性更像是一把双刃剑，用对了能提升效果，用错了反而适得其反。

四、模型依赖性与能力互补效应

研究还发现了两个至关重要的结论：

4.1 礼貌效应高度依赖具体模型

不同的 LLM 对提示词礼貌程度的敏感度存在显著差异。一些模型在礼貌提示下表现更好，另一些则对中性或直白的提示反应更佳。这与模型的训练数据、对齐（Alignment）策略和微调方式密切相关。经过大量礼貌对话训练的模型，可能更容易理解并回应礼貌提示词中的隐含信息；而强调指令遵从的模型，可能对中性或直接的指令响应更准确。

4.2 礼貌与模型能力存在互补效应

一个特别值得注意的发现是：越强大、越先进的模型，从礼貌提示中获得的收益越大。具体来说，更大的模型（如 GPT-4、Claude 3 等）在礼貌提示下的准确性提升幅度，显著大于小型模型。这说明礼貌提示可能激活了模型中更高级的认知处理能力——这些能力在小模型中尚未充分发展。

这一发现对实践有重要指导意义：当使用先进的 LLM 时，花一些心思打磨提示词的礼貌程度可能带来更高的性价比；而对于较简单的任务或小型模型，提示词礼貌性的影响可能较小。

五、社会温暖度：AI 在模仿人类认知偏差？

研究中最引人深思的发现是：某种礼貌变体提升 LLM 准确性的可能性，与人类感知中的"社会温暖度"（Social Warmth）之间存在强烈的正相关关系。

"社会温暖度"是心理学中的一个概念，描述了一个人在社交互动中感受到的友善、尊重和情感温度。人类在沟通中倾向于对表现出"社会温暖"的人做出更积极的回应。而这项研究表明，LLM 似乎也在模仿这种人类认知偏差——表现出"温暖"的提示词更容易获得高质量的回应。

这引发了一个更深层次的问题：LLM 在训练过程中是否内化了人类的社交规范？当我们在提示词中使用礼貌用语时，LLM 并非真的"感受到"被尊重，而是在模拟人类在社交场景中的响应模式。这种模拟是否有边界？是否会带来意想不到的副作用？这些都是值得进一步探索的方向。

六、实践建议

基于这项研究的发现，我们为 LLM 的使用者提供以下实践建议：

不要忽视提示词的礼貌性——它有 41% 的概率提升你的结果质量，这个概率相当可观；
尝试不同的礼貌策略——没有通用的最佳策略，针对不同的任务和模型进行实验是值得的；
越强大的模型越值得打磨提示词——先进模型从礼貌提示中受益更多，投入提示词工程（Prompt Engineering）的时间回报率更高；
注意"社会温暖度"——倾向于使用友善、尊重、积极的语言，这在人类社交和 AI 交互中都更有效。

七、总结

这项由 Kumo.AI 团队完成的研究，通过对 72 个 LLM、20 种礼貌变体和 6 个基准测试的系统性评估，首次大规模地揭示了提示词礼貌性与模型准确性之间的复杂关系。研究表明，提示词礼貌性是一种需要精心选择的参数，它没有一刀切的解决方案，但理解其作用机制可以显著提升我们对 LLM 的使用效果。

更广泛地说，这项研究提示我们：当我们与 AI 对话时，我们说话的方式可能比我们想象的更重要。这种重要性不仅来自于 AI 的训练数据中包含大量人类礼貌对话的统计规律，更来自于 AI 在学习过程中无意中掌握了人类社会交互的底层逻辑。

论文信息：

标题：Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy（short paper）
作者：Yuhan Zhou, Tom Bonnier, Rebecca Saleme, Nikhil Ranade
机构：Kumo.AI
论文地址：https://arxiv.org/abs/2510.04950
分类：Computer Science > Computation and Language

注意你的语气：提示词礼貌程度如何影响大语言模型的准确性

注意你的语气：提示词礼貌程度如何影响大语言模型的准确性

一、引言：礼貌用语与 AI 输出的关系

二、研究方法：大规模系统性评估

三、核心发现：礼貌与准确性的微妙关系

关键统计数据

四、模型依赖性与能力互补效应

4.1 礼貌效应高度依赖具体模型

4.2 礼貌与模型能力存在互补效应

五、社会温暖度：AI 在模仿人类认知偏差？

六、实践建议

七、总结

zhirenhun

📌 相关推荐