当前位置:首页 > 科技资讯 > 正文

提示词优化:解锁AI性能的关键

提示词优化:解锁AI性能的关键!顶尖研究揭示,有效的提示词能将AI性能提升49%。

AI性能的提升,并非全依赖模型,有效的提示词同样至关重要。

提示词优化:解锁AI性能的关键 提示词优化 AI性能 模型升级 提示词适应 第1张

马里兰大学、MIT和斯坦福等机构的研究表明,模型升级带来的性能提升仅占50%,而另外一半的提升则源于用户提示词的优化。

他们称之为「提示词适应」(prompt adaptation)。

提示词优化:解锁AI性能的关键 提示词优化 AI性能 模型升级 提示词适应 第2张

论文地址:https://arxiv.org/pdf/2407.14333v5

为此,他们让DALL-E 2和DALL-E 3进行了一场比拼,1,893名「选手」在10次尝试中,随机分配三种模型之一来复现目标图像。

结果令人惊讶:DALL-E 3的图像相似度显著优于DALL-E 2。

其中,模型升级本身仅贡献了51%的性能,剩余的49%全靠受试者优化的提示词。

提示词优化:解锁AI性能的关键 提示词优化 AI性能 模型升级 提示词适应 第3张

关键在于,没有技术背景的人也能通过提示词让DALL-E 3模型生成更好的图片。

提示词优化:解锁AI性能的关键 提示词优化 AI性能 模型升级 提示词适应 第4张

OpenAI总裁Greg Brockman也认为,「要充分发挥模型的潜力,确实需要一些特殊的技巧」。

他建议开发者们去做「Prompt库」管理,不断探索模型的边界。

提示词优化:解锁AI性能的关键 提示词优化 AI性能 模型升级 提示词适应 第5张

换言之,你的提示词水平决定了AI能否从「青铜」变成「王者」。

别等GPT-6了!不如「调教」提示词

GenAI的有效性不仅取决于技术本身,更取决于能否设计出高质量的输入指令。

ChatGPT爆红后,全世界掀起了一股「提示词工程」的热潮。

尽管「上下文工程」成为今年的热点,但「提示词工程」依旧炙手可热。

提示词优化:解锁AI性能的关键 提示词优化 AI性能 模型升级 提示词适应 第6张

然而,提示词设计作为一种动态实践仍缺乏深入研究。

多数提示词库和教程将有效提示视为「可复用成品」,但用到新模板中可能会失效。

这就带来了一些现实问题:提示策略能否跨模型版本迁移?还是必须持续调整以适应模型行为变化?

为此,研究团队提出了「提示词适应」这一可测量的行为机制,用以解释用户输入如何随技术进步而演进。

他们将其概念化为一种「动态互补能力」,并认为这种能力对充分释放大模型的经济价值至关重要。

实验设计:评估提示词适应的影响

为评估提示词适应对模型性能的影响,团队采用了Prolific平台一项预注册在线实验数据,共邀请了1,893名参与者。

每位受试者被随机分配三种不同性能的模型:DALL-E 2、DALL-E 3,或自动提示优化的DALL-E 3。

提示词优化:解锁AI性能的关键 提示词优化 AI性能 模型升级 提示词适应 第7张

除模型分配外,每位参与者还独立分配到15张目标图像中的一张。这些图像选自商业营销、平面设计和建筑摄影三大类别。

实验明确告知参与者模型无记忆功能——每个新提示词均独立处理,不继承先前尝试的信息。

核心结果:模型 vs 提示词的贡献

实验的核心结果指标是参与者生成的每张图像与指定目标图像之间的相似度。

这项指标通过CLIP嵌入向量的余弦相似度进行量化。

回放分析:模型 vs 提示词的改进

实验的另一个核心目标在于,厘清图像复现性能的提升中,有多少源于更强大的模型,又有多少来自提示词的优化?

实验结果:DALL-E 3强大的生图能力

(i) 接入更强大的模型(DALL-E 3)能提升用户表现;

(ii) 用户在使用更强模型时如何改写或优化他们的提示词;

(iii) 整体性能提升中有多少应归因于模型改进,多少应归因于提示词的适应性调整。

关键发现:模型 vs 提示词的贡献

  • - 模型效应:
  • - 提示效应:

技能异质性:不同技能水平的参与者表现

作者介绍

"