DPS:给大模型画一条决策边界
1. 背景:大模型到底怎么"选"的?
人人都知道大模型是"黑箱"。但黑箱不是一个借口——你总得搞清楚它到底是怎么做决策的。
分类模型有decision boundary:一条线(或超平面),线的这边是猫,那边是狗。但大语言模型是生成式模型——它不输出"猫"或"狗",它输出一整个句子。那它的"决策边界"是什么?这个问题,在DPS之前,没有人正经回答过。
2. 我们的做法
我们把LLM重新定义为一个组合的多类分类器。基于这个形式化,我们提出了Decision Potential Surface(DPS)——一个势函数面。核心结论:*势函数等于0的等高线,就是LLM的决策边界*。
更进一步,我们提出了K-DPS——只需要对每个输入点采样K次就能近似DPS。这很重要,因为精确计算DPS需要遍历整个输出空间,那是不可能的。我们从理论和实验两个角度分析了K-DPS的误差界,证明用很少的采样次数就能得到很好的近似。
3. 为什么重要?
这是第一次有人把"LLM的决策边界"这件事正经地形式化并近似出来。有了决策边界,你就可以做很多事:分析模型在哪些区域容易出错、理解adversarial examples的作用机制、甚至指导模型的对齐训练。
4. 论文信息
- 标题: Decision Potential Surface: A Theoretical and Practical Approximation of LLM's Decision Boundary
- 作者: Zi Liang, Zhiyao Wu, Haoyang Shang, Yulin Jin, Qingqing Ye, Huadi Zheng, Peizhao Hu, Haibo Hu
- 状态: Arxiv Preprint 2025
- 代码: https://github.com/liangzid/DPS