Prompt的措辞敏感性:换一个词,结果天差地别

1. 背景:Prompt Engineering到底有多"玄学"?

大家都知道prompt很重要。同一个问题,换个问法,模型的表现可能完全不同。但这种敏感性到底有多严重?哪些语言学因素在起作用?之前的工作大多停留在经验层面。

和启鹏(Qipeng Xie)合作,我们决定系统性地量化这件事。

2. 我们的发现

结论比我们预想的更惊人。同一个语义意图,仅仅改变:

  • 一个同义词(比如"分析"换成"剖析")
  • 一个标点符号(句号换成感叹号)
  • 甚至一个冠词的位置

模型的输出质量就可能出现显著波动——在某些任务上,波动幅度超过20%。

我们分析了导致敏感性的语言学特征,包括词汇频率、句法复杂度、语义歧义度等,并发现了一些规律:

  • 低频词比高频词更敏感
  • 复杂句式比简单句式更敏感
  • 模型越大,对措辞的敏感度反而越高(反直觉!)

3. 这意味着什么?

当前的prompt-based evaluation可能存在巨大的隐藏方差。你在某个prompt上测出来的"模型能力",可能只是prompt措辞的偶然结果。我们提出了一些稳健的prompt设计策略来缓解这个问题。

4. 论文信息

  • 标题: Beyond Prompt Engineering: A Systematic Analysis of Prompt Lexical Sensitivity and Its Impacts on Quality
  • 作者: Qipeng Xie, Zi Liang, Jiafei Wu, Yufei Chen, Weizheng Wang, Wenao Ma, Zhong Ming, Haiqin Yang, Kaishun Wu
  • 状态: ACL 2026 Findings

Author: Zi Liang (团长) (liangzi20163933@qq.com) Create Date: 2026-05-27 Last modified: 2026-05-27 Wed 21:39 Creator: Emacs 30.2 (Org mode 9.7.11)