Web Memorization：LLM记住了互联网的什么？

1. 背景：LLM的记忆问题

LLM在训练时"见过"海量的网页内容。有些内容被记住了（memorized），有些没有。搞清楚"记住了什么"很重要——涉及隐私（是否记住了个人信息）、版权（是否记住了付费内容）、和安全（是否记住了危险知识）。

和志尧（Zhiyao Wu）合作，我们提出了一种新的membership inference方法。

传统的membership inference attack判断的是"这段文字是否在训练集里"。我们把它升级到了语义级别——判断"这个语义概念是否被模型记住了"。

比如，我们不问"模型是否见过某篇具体的新闻文章"，而是问"模型是否记住了'某公司发生过数据泄露'这个语义事实"。

文本级别的判断很容易被绕过——改几个词、换个说法，membership signal就消失了。但语义级别的记忆是更深层的——只要模型"知道"这件事，无论你怎么换表述，它都藏不住。

这个工作在WWW'26发表，应用场景包括隐私审计、版权检测、和训练数据溯源。