DPS：给大模型画一条决策边界

1. 背景：大模型到底怎么"选"的？

人人都知道大模型是"黑箱"。但黑箱不是一个借口——你总得搞清楚它到底是怎么做决策的。

分类模型有decision boundary：一条线（或超平面），线的这边是猫，那边是狗。但大语言模型是生成式模型——它不输出"猫"或"狗"，它输出一整个句子。那它的"决策边界"是什么？这个问题，在DPS之前，没有人正经回答过。

我们把LLM重新定义为一个组合的多类分类器。基于这个形式化，我们提出了Decision Potential Surface（DPS）——一个势函数面。核心结论：*势函数等于0的等高线，就是LLM的决策边界*。

更进一步，我们提出了K-DPS——只需要对每个输入点采样K次就能近似DPS。这很重要，因为精确计算DPS需要遍历整个输出空间，那是不可能的。我们从理论和实验两个角度分析了K-DPS的误差界，证明用很少的采样次数就能得到很好的近似。

这是第一次有人把"LLM的决策边界"这件事正经地形式化并近似出来。有了决策边界，你就可以做很多事：分析模型在哪些区域容易出错、理解adversarial examples的作用机制、甚至指导模型的对齐训练。

标题: Decision Potential Surface: A Theoretical and Practical Approximation of LLM's Decision Boundary
作者: Zi Liang, Zhiyao Wu, Haoyang Shang, Yulin Jin, Qingqing Ye, Huadi Zheng, Peizhao Hu, Haibo Hu
状态: Arxiv Preprint 2025
代码: https://github.com/liangzid/DPS