DPS:给大模型画一条决策边界

1. 背景:大模型到底怎么"选"的?

人人都知道大模型是"黑箱"。但黑箱不是一个借口——你总得搞清楚它到底是怎么做决策的。

分类模型有decision boundary:一条线(或超平面),线的这边是猫,那边是狗。但大语言模型是生成式模型——它不输出"猫"或"狗",它输出一整个句子。那它的"决策边界"是什么?这个问题,在DPS之前,没有人正经回答过。

2. 我们的做法

我们把LLM重新定义为一个组合的多类分类器。基于这个形式化,我们提出了Decision Potential Surface(DPS)——一个势函数面。核心结论:*势函数等于0的等高线,就是LLM的决策边界*。

更进一步,我们提出了K-DPS——只需要对每个输入点采样K次就能近似DPS。这很重要,因为精确计算DPS需要遍历整个输出空间,那是不可能的。我们从理论和实验两个角度分析了K-DPS的误差界,证明用很少的采样次数就能得到很好的近似。

3. 为什么重要?

这是第一次有人把"LLM的决策边界"这件事正经地形式化并近似出来。有了决策边界,你就可以做很多事:分析模型在哪些区域容易出错、理解adversarial examples的作用机制、甚至指导模型的对齐训练。

4. 论文信息

  • 标题: Decision Potential Surface: A Theoretical and Practical Approximation of LLM's Decision Boundary
  • 作者: Zi Liang, Zhiyao Wu, Haoyang Shang, Yulin Jin, Qingqing Ye, Huadi Zheng, Peizhao Hu, Haibo Hu
  • 状态: Arxiv Preprint 2025
  • 代码: https://github.com/liangzid/DPS

screenshot_20250927_204135.png


Author: Zi Liang (团长) (liangzi20163933@qq.com) Create Date: 2026-05-27 Last modified: 2026-05-27 Wed 21:39 Creator: Emacs 30.2 (Org mode 9.7.11)