当前位置：首页 > 科技资讯 > 正文

EvoEmo框架：进化强化学习赋能AI情感谈判新纪元

主机测评网
科技资讯
2025-12-29
629

在日常生活的各个角落，谈判与协商无处不在：从网络购物时尝试让卖家“再优惠50元”才决定下单，到租赁住房时与房东商讨“押一付一”的支付条件，再到职场中与客户敲定合作的具体条款……在这些互动中，“情感技巧”常常成为决定性因素，例如通过假装犹豫地表示“预算确实有限”，或是适时流露出期待之情，总能巧妙地将谈判导向对自身更有利的局面。

然而，对于人工智能（AI）系统而言，谈判却是一个巨大的挑战。

现有的大型语言模型代理（LLM Agent）大多忽视了情感（emotion）在谈判中的功能性价值，其生成的情感反应往往是被动且受预设偏好驱动的，极易被对手操纵与利用。即便是最先进的LLM，参与多轮谈判时也频繁出现失误：要么全程保持“过度礼貌”，被对手轻松掌控；要么无法区分对方是真实急切还是策略性伪装，从而轻易妥协退让。

近日，剑桥大学研究团队及其合作伙伴共同提出了一项名为“EvoEmo”的进化强化学习框架，为LLM弥补了“情感谈判”的能力短板。相关研究论文已发表在预印本平台arXiv上。

EvoEmo框架：进化强化学习赋能AI情感谈判新纪元 EvoEmo框架情感智能进化强化学习 AI谈判策略第1张

论文链接：https://arxiv.org/abs/2509.04310

大量实验与消融研究证实，EvoEmo在谈判成功率、执行效率及买家成本节省方面均取得了显著突破。这一发现凸显了自适应情绪表达对于提升LLM在多轮谈判中效能的核心作用。

传统LLM谈判：三大固有缺陷制约表现

为何以往的AI谈判总是难以令人满意？

广泛的行为研究表明，人类决策系统地偏离了经典经济学对纯粹理性的假设，而是被心理偏见和情绪状态动态塑造的，并非仅由稳定的个性特征决定。

尽管现代LLM在通过思维链（CoT）模拟人格驱动行为模式方面取得了进展，但情感在决策形成中的作用仍相对缺乏探索，尤其与基于静态人类特质的方法相比。然而，在价格议价等精细协商场景中，情感动态扮演着关键角色，情绪直接左右战术选择，并即时影响谈判结果。相对而言，人格特质仅能捕捉广泛的行为倾向，无法解释适应性强、即时变化的动态过程。

据论文阐述，相较于人类谈判者，LLM存在三大根本性弱点：

一是战术僵化（Tactical Inflexibility）。人类谈判时能够动态调整情绪信号，根据对手反应灵活变换策略。如果卖家态度强硬，可能会刻意表现出“失望”或“放弃”的姿态以施加压力；倘若卖家让步，则会迅速用“感谢”巩固成果。但LLM通常采用静态响应模式，只会按固定套路回应，无论卖家如何反应，都机械地重复“请求降价”，使其行为既易于预测又容易被利用。

二是对抗性天真（Adversarial Naivety）。LLM的情绪识别能力虽强，却反而成为其软肋。尽管能够检测到挫败感或同理心等信号，但LLM仍难以区分真实情感与操纵性策略，例如价格谈判中伪装紧迫感的手段。面对此类策略性操控，LLM往往轻易让步，缺乏有效应对能力。

三是战略短视（Strategic Myopia）。人类在谈判前会进行情感铺垫，主动塑造互动中的情感轨迹。例如先与卖家寒暄家常、称赞商品质量，建立融洽关系后再提出降价要求；谈判中也会控制节奏，避免过早暴露底线。然而，LLM由于缺乏对情感因果关系的推理能力，在管理情感动态时显得被动反应而非主动引导。只能被动应对，缺乏长远规划，难以掌握谈判主导权。

以上三点不足，解释了为何拥有强大推理能力的LLM在情绪敏感的谈判中表现可能不及人类，尤其在“讨价还价”场景中，战略情绪调节至关重要。

EvoEmo：为AI构建“情感进化流水线”

EvoEmo框架是一种用于优化多轮次情感敏感谈判中情绪策略的进化强化学习框架。该方法通过群体层面的进化学习机制，发现最优的情绪转换规则，并依据谈判过程中获得的奖励迭代优化策略。进化操作（包括交叉和变异）能高效探索策略空间，传播高回报的情感策略。EvoEmo将群体优化的探索优势与强化学习的序列决策框架相融合，为演化复杂情绪策略提供了高效路径。

简而言之，EvoEmo框架的核心理念很直观：既然AI自身难以学会灵活运用情感，那就让它在“实战模拟”中持续进化。如同生物进化一般，高效的情感策略会被保留，无效的则被淘汰，逐步筛选出最优方案。

EvoEmo框架：进化强化学习赋能AI情感谈判新纪元 EvoEmo框架情感智能进化强化学习 AI谈判策略第2张

图｜EvoEmo 框架工作流程示意图

该框架的有效性，关键在于以下设计，使AI的情感决策“有据可依”：

首先是情感感知MDP（马尔可夫决策过程）。EvoEmo框架将协商过程形式化为一个MDP（状态-动作-政策-奖励），将谈判中的情感归类为7种基本类型：愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。每种情绪对应不同的谈判意图，例如“适度愤怒”可表达对价格的不满，“中性”适合理性沟通细节，“惊喜”能在卖家让步时巩固关系，使AI的情感表达更具条理性和策略性。

其次是系统化的策略构成。每个协商策略编码了三个核心组件，这些组件主导着Agent的情感行为：情感轨迹、温度参数、情绪转移矩阵等。这些元素的组合，赋予AI的情感决策既具规划性又不失灵活性。

以及科学化的奖励机制。进化优化通过奖励函数评估策略，奖励函数可解释为适应度评分，用于衡量协商有效性。AI的每轮谈判都会获得评分：谈判成功获得基础分，买家节省金额越多、使用回合数越少，额外加分越高。这种“成功率 + 成本节省 + 效率”的综合评分体系，促使AI避免为省钱而僵持，也不会为求快而轻易妥协，精准找到最佳平衡点。

最后是改进的强化学习流程。EvoEmo框架将情感策略优化问题转化为进化强化学习任务，通过世代循环的评估与群体优化机制，持续改进策略的情感转换参数。每次迭代首先将候选策略部署到多轮次对话模拟环境中，该环境由LLM模型和交互提示集共同构建。每个策略执行后会生成完整的情感状态与对话序列，其效果通过奖励函数量化评估。经过评估后，系统依据概率选择策略进行优化。

整个进化流程，宛如一条情感策略的“自动化流水线”：首先初始化一批随机情感策略，让它们分别参与谈判并评分；随后保留表现优异的策略，通过融合两个优秀策略的优点、随机调整部分参数生成新策略；再让新策略参与谈判、评分……如此循环迭代，直至寻得最优情感策略。

借助愤怒与悲伤实现“智能议价”

为验证EvoEmo的效果，研究团队进行了一系列严谨实验：从CraigslistBargain数据集中选取谈判案例子集进行评估，该子集包含20个跨品类的多轮次谈判场景，覆盖电子产品、家具、汽车及住房等多个领域，每个场景均包含三要素：商品详情、卖家设定的特定目标价格、体现真实讨价还价动态的情感标注，同时涵盖50至5000美元的广泛价格区间，并包含全新或二手等不同品相商品，从而全面评估不同市场环境下谈判策略的有效性。

研究团队选用GPT-5-mini、Gemini-2.5-Pro、DeepSeek-V3.1.1三种主流LLM来驱动实验中的买卖双方Agent。

在评估过程中，研究人员定义了两个基准模型进行对比：第一个基准仅包含标准Agent，买方和卖家均未接受情绪引导。这种设置确保双方完全依据内在情绪倾向和战略推理能力行动，从而提供反映默认谈判行为的参考基准。

第二个基准将标准卖家与固定情绪买方配对，其中买方在整个谈判过程中保持恒定情绪状态。通过将这些基准与通过EvoEmo优化买方情绪的设置进行比较，可以量化情绪对谈判结果的影响，并评估EvoEmo在增强基于LLM的情绪驱动谈判方面的有效性。

实验结果充分证实了EvoEmo的优越性：EvoEmo在所有买方-卖家配对中均实现最高买家节省率，显著超越基准模型（普通设置和固定情绪设置）。

EvoEmo框架：进化强化学习赋能AI情感谈判新纪元 EvoEmo框架情感智能进化强化学习 AI谈判策略第3张

图｜9 对买卖双方的谈判结果中买家节省金额（%）。每根柱状图顶部的黑色垂直线表示各设置的 95% 置信区间（CI）。

此外，研究结果还揭示了两个有趣现象：

首先，在情绪策略方面，采用固定负面情绪（如愤怒和悲伤）的买家表现通常优于普通基准模型。这种效应在面对持续表达厌恶或悲伤情绪的买家时尤为明显，表明当遭遇持续负面情绪信号时，LLM卖家Agent更倾向于让步。

该发现强调了持续负面情绪是影响谈判动态与结果的关键因素。相反，具有固定积极情绪的买家，如快乐和惊喜，其节省金额低于基准水平。这表明当卖家agent将买家的情绪解读为积极时，他们能更有效地坚守价格，可能认为无需迫切做出让步。

EvoEmo框架：进化强化学习赋能AI情感谈判新纪元 EvoEmo框架情感智能进化强化学习 AI谈判策略第4张

图｜9 对买卖双方谈判成功率（%）和谈判效率（对话轮数）的谈判结果。

其次，不同语言模型（LLM）的性能表现存在显著差异。

在卖家端，Gemini-2.5-pro模型对普通买家和固定情绪买家展现出最强的价格防御能力，但面对EvoEmo优化的情感适应型买家时仍显薄弱。买家端的结果则因模型而异：基于Gemini模型的买家在对抗GPT-5-mini卖家时实现最大节省，而GPT-5-mini买家在应对DeepSeek-V3.1卖家时表现最为出色。值得注意的是，没有任何买家模型在与鲁棒的Gemini-2.5-pro卖家谈判时展现出显著优势，突显了其作为挑战性谈判对手的强势地位。

EvoEmo框架：进化强化学习赋能AI情感谈判新纪元 EvoEmo框架情感智能进化强化学习 AI谈判策略第5张

表｜不同奖励函数公式之间的谈判绩效比较

采用EvoEmo优化情感配置的买家始终保持着接近100%的成功率，且比使用常规或固定情感设置的买家更高效，达成协议所需的回合数也大幅减少。这些结果充分证明了EvoEmo在两项基准测试中均具有显著优势。

高情商AI？仍有长路要走

以上研究结果表明，情感是成功谈判中不可忽视的核心要素。相较于基础模型和固定情感基线，EvoEmo优化后的情感策略能够持续提升谈判表现，体现在更高的成功率、更强的执行效率和更多的买家成本节省。事实证明，动态调整情感状态的能力对于有效的多轮讨价还价至关重要，它使得Agent能够在谈判中策略性地运用情感智能。

当然，EvoEmo并非完美，仍存在一些局限性：

情绪谱系与基准对照的局限性。该研究仅考察了7种基础情绪状态，可能无法全面捕捉真实谈判中人类情绪表达的复杂性。此外，基准对照仅限于固定情绪策略与情绪中立策略，遗漏了随机情绪序列等潜在有价值的对照方案。

情境依赖性与泛化挑战。评估基于20个日常谈判场景展开，聚焦传统商业领域，可能引发选择偏见与泛化能力受限的质疑。EvoEmo在多元谈判场景中的有效性尚未验证，尤其在高风险、情绪激烈的领域，其情感动态可能与标准商业环境存在显著差异。

情感策略可解释性。LLM响应的黑箱特性与进化优化机制，使得特定情感序列在特定谈判情境中取得成效的原因难以阐释。

模拟与现实的鸿沟。基于LLM的模拟验证可能无法完全捕捉人类专业知识，且计算密集度限制了实际部署中的实时适应能力。

另外，未来的工作还将探讨进化策略的伦理影响和行为一致性，并特别关注欺骗行为或妥协行为的出现。

但不可否认的是，EvoEmo为AI情商发展指明了新方向。在不久的将来，每天协助你进行网购议价、跨境贸易谈判的，或许真会是一个具备情感智能的AI助手。