Prompt的措辞敏感性：换一个词，结果天差地别

1. 背景：Prompt Engineering到底有多"玄学"？

大家都知道prompt很重要。同一个问题，换个问法，模型的表现可能完全不同。但这种敏感性到底有多严重？哪些语言学因素在起作用？之前的工作大多停留在经验层面。

和启鹏（Qipeng Xie）合作，我们决定系统性地量化这件事。

结论比我们预想的更惊人。同一个语义意图，仅仅改变：

模型的输出质量就可能出现显著波动——在某些任务上，波动幅度超过20%。

我们分析了导致敏感性的语言学特征，包括词汇频率、句法复杂度、语义歧义度等，并发现了一些规律：

当前的prompt-based evaluation可能存在巨大的隐藏方差。你在某个prompt上测出来的"模型能力"，可能只是prompt措辞的偶然结果。我们提出了一些稳健的prompt设计策略来缓解这个问题。

标题: Beyond Prompt Engineering: A Systematic Analysis of Prompt Lexical Sensitivity and Its Impacts on Quality
作者: Qipeng Xie, Zi Liang, Jiafei Wu, Yufei Chen, Weizheng Wang, Wenao Ma, Zhong Ming, Haiqin Yang, Kaishun Wu
状态: ACL 2026 Findings