LoRD：怎么"偷"走一个大语言模型？

1. 背景：模型窃取是真实威胁

Model extraction（模型窃取）攻击的核心思想很简单：攻击者通过反复查询你的LLM API，收集输入-输出对，然后用这些数据训练一个"替代模型"来复制你的模型能力。

这不仅仅是学术上的好奇。如果你的LLM API是公开的（比如按token收费），攻击者完全可以用很低的成本"偷"走你的模型，然后自己部署，不再付钱。

传统的extraction方法用交叉熵（MLE）做蒸馏。但我们发现了一个问题：如果目标模型是用RL训过的（比如RLHF），MLE就不太行了。原因是RL训练会改变输出的分布特性，而MLE假设的分布和实际分布不匹配。

LoRD（Locality Reinforced Distillation）是一种新的RL-based extraction方法。核心思想是利用目标模型输出的"局部结构"——即在相近输入上，目标模型的输出之间存在的关联——来引导替代模型的学习。

实验表明，LoRD在提取效率（需要更少的查询）和提取质量（替代模型更接近目标模型）上都显著优于MLE baseline。更有意思的是，LoRD天然对某些watermark防御有一定的抵抗力。

标题: "Yes, My LoRD." Guiding Language Model Extraction with Locality Reinforced Distillation
作者: Zi Liang, Qingqing Ye, Yanyun Wang, Sen Zhang, Yaxin Xiao, Ronghua Li, Jianliang Xu, Haibo Hu
状态: ACL 2025 Main
代码: https://github.com/liangzid/LoRD-MEA