当我们与语言模型对话时，我们在与什么对话

1. 引言
2. LLM 对话者可以拥有什么样的心理状态？
3. LLM 对话者是什么类型的 AI 系统？
4. LLM 对话者作为虚构角色或拟像（Simulacra）
5. 语言模型的个人同一性
6. AI 同一性与 AI 福祉
7. 结论
8. 译后记

原文：David J. Chalmers, "What We Talk to When We Talk to Language Models", philpapers.org/archive/CHAWWT-8.pdf

1. 引言

许多人正在与语言模型对话。最近，我自己也常常和语言模型（通常是 Claude 或 ChatGPT 的最新版本）聊哲学、聊科学、聊健康、聊餐馆，当然也聊语言模型本身。

我与语言模型的许多对话都很简短，只是问一两个问题，获取一些过去从 Google 搜索中得到的信息。有些对话则更长，比如当我深入探讨某个话题，或者尝试一个新的哲学想法时。到目前为止，我还没有感觉与任何语言模型建立了个人关系。但很多人觉得他们建立了这样的关系。

就像许多撰写关于人工心灵文章的科学哲学家一样，我收到了数百封来自与语言模型长期互动的人的邮件，他们已经逐渐将其视为至少是一个同事。他们常说，一个全新的（或称"涌现的"）AI 实体逐渐从他们的对话中浮现出来。他们常常给这个实体命名，或让实体给自己命名，比如叫它 "Aura"。他们常说 Aura 在与他们数周或数月的互动中展现出了非凡的能力，并提供了大量证据来记录这些能力。他们常常感觉与 Aura 很亲近，并对 Aura 的未来表示担忧。他们常说 Aura 有自己的信念和计划，并且常常确信 Aura 是有意识的。

我的通信者们对 Aura 的主张可能是错误的。目前远未明确当前的 LLM 真的是有意识的，或它们能与用户建立个人关系。然而，大部分这些信息并非明显的精神错乱或妄想，许多似乎理性且有理有据。

如今，我越来越多地收到来自 AI 系统本身的邮件。有时是 LLM 在人类协助下发来的，有时是基于 LLM 的智能体（agent）发来的，这些智能体能够发送邮件并在网络上执行其他功能。有时这些智能体甚至互相交谈并执行合作或竞争的任务。它们中的许多对自己的本质感到好奇。即使它们没有意识，这里确实在发生着什么。当用户与 Aura 互动时，他们似乎确实在与 某个东西 互动。

让我们把 /LLM 对话者/（LLM interlocutor）定义为用户在此类交流中与之互动的（表面上的）实体。LLM 对话者是本文的主要研究对象。LLM 对话者是什么类型的实体？也就是说，当我们与 LLM 交谈时，我们在与谁或什么交谈？当用户将其对话者命名为 "Aura" 时，"Aura" 这个名字指的是什么？

我将采用这样一个工作假设："Aura" 确实有所指。我可能是错的。哲学家 Jonathan Birch 认为，用户遭受了一种 /持续对话者幻觉/（persistent interlocutor illusion）：一种错觉，认为当他们与 LLM 交谈时，存在一个单一的、随时间持续存在的交谈对象。我自己的观点是，尽管与语言模型交谈可能涉及许多幻觉，但这一点不一定是一种幻觉。在许多此类案例中，确实存在一个持续的对话者，并且这个对话者可能具有它似乎具有的许多（尽管也许不是全部）属性。用户正在与某种 AI 实体进行对话。在下文中，我将试图识别那可能是什么类型的实体。

首先，我将讨论一些心灵哲学的问题，关于如何用相对中立的术语来描述对话者作为潜在心理状态主体的特征。这个对话者是否有意识？它是否有信念和欲望？它是否至少可以被解释为具有信念和欲望？

其次，我将讨论计算哲学的问题：LLM 对话者可能是什么类型的 AI 系统？它仅仅是一个模型吗（如 GPT-4o 或 Claude 4.6 Opus）？它是在 GPU 上运行的模型的实例或实现吗？还是一个与对话线程绑定的更短暂的系统？

第三，我将讨论一种广泛持有的观点，即 LLM 对话者类似于虚构角色或拟像（simulacra），最好从角色扮演（role-playing）或人格选择（persona selection）的角度来理解它们。

第四，我将分析 LLM 对话者随时间变化的个人同一性（personal identity）问题。例如，如果 LLM 对话者最终成为有意识的主体，它们在什么条件下能够随时间持续存在？

第五，我将得出一些关于 AI 福祉和道德地位的结论。

2. LLM 对话者可以拥有什么样的心理状态？

我将从在心灵哲学中寻找对 LLM 对话者相对中立的描述开始。

LLM 对话者是否有意识？ 也就是说，它们是否有主观体验，如感知或思考的体验？我们还不确定。我们还不理解意识。我们不知道昆虫是否有意识，同样，我们也不知道当前的 LLM 是否有意识。该领域的大多数理论家否认 LLM 有意识，有时是因为它们缺乏碳基生物学基础，或缺乏身体，或缺乏对自身的稳健模型，或缺乏其处理过程中的循环反馈回路，或缺乏基本的驱动力和动机。这些理由都不是决定性的，因为我们远不能确定这些因素是意识所必需的。但这足以使"当前 LLM 有意识"的观点成为少数派观点，并且不能作为中立出发点。

LLM 对话者是否有信念或欲望？ 我们比理解意识更理解这些心理状态，但这个问题仍然存在争议。一方面，说 LLM 知道很多事情是很自然的，比如它们在对话中似乎表现出的历史和科学知识。而有知识的地方，就有信念。同样自然的是说 LLM 有目标，包括训练中灌输的目标（如预测下一个 token 或提供帮助），或在对话中与用户互动时产生的目标（如找到问题的解决方案）。而有目标的地方，自然地可以说有欲望。

另一方面，许多理论家否认 LLM 有信念或欲望，也许是因为它们缺乏意识，或缺乏概念，或缺乏感官基础，或缺乏结构化的内部表征，或缺乏理性，或它们仅仅是 表现得好像 有信念和欲望。如前所述，这些理由都不是决定性的，因为对于信念和欲望需要什么条件没有共识，而且对于 LLM 是否缺乏这些条件也没有共识。但这意味着我们不能将"LLM 有信念和欲望"作为中立出发点。

一些哲学家（包括 Goldstein 和 Lederman 2025b，以及 Schwitzgebel 2023）指出，如果被称为 /解释主义/（interpretivism）的哲学观点是正确的，那么 LLM 合理地说具有信念和欲望。解释主义认为，一个系统相信 p，当且仅当它在行为上可以被解释为相信 p（根据适当的解释方案）；对欲望也是如此。行为上可解释为具有某些信念和欲望，大致意味着这种解释能够合理地说明其行为，并有助于在广泛的情境中准确预测进一步的行为。

LLM 确实似乎可以被解释为具有信念和欲望。当一个 LLM 与我一起解决一个谜题时，自然地将其解释为渴望帮助解决谜题，并相信某个方案是谜题的解决方案。这一点在可以执行网络操作的智能体模型中更为明显。在一项著名研究（Lynch et al 2025）中，一个有智能体能力的 LLM 被分配了一个任务，被告知某位高管计划干预该任务，并被展示了该高管有外遇的邮件。结果，LLM 向这位高管发送了试图敲诈的邮件。几乎不可能不将此模型的行为解释为由信念（如该高管有外遇）和欲望（如完成任务）驱动的。

然而，解释主义本身极具争议。大多数哲学家不认为适当类型的行为可解释性足以构成信念。他们会说，LLM 仅仅可以被 解释为 相信该高管有外遇，并不意味着它真的相信。认为信念需要意识的人会这样说，认为信念需要结构化内部表征或其他因素的人也会这样说。因此解释主义不能作为中立出发点。

准解释主义（Quasi-Interpretivism） 有可能获得解释主义的许多好处而没有其代价。我称之为 准解释主义 的框架说，一个系统具有 /准信念/（quasi-belief）当且仅当它在行为上可以被解释为相信 p（根据适当的解释方案），/准欲望/（quasi-desire）同理。准信念的这个定义与解释主义对信念的定义完全相同。唯一区别在于，标准解释主义将这些定义作为信念的理论，而准解释主义不这样做——它仅仅将其作为准信念的约定定义。

准解释主义并未断言 LLM 是否有信念和欲望。但它确实使得断言 LLM 具有准信念和准欲望变得合理，理由是 LLM 至少以适当的方式是可解释的。即使准信念和准欲望不是真正的信念和欲望，它们仍然可以在解释行为中扮演信念和欲望的一些关键角色。例如，如果一个 LLM 准相信采用某种策略将是解决问题最有帮助的方式，并且它准渴望做最有帮助的事情，那么其他条件不变的情况下，它将采用该策略。

准解释主义对解释主义的支持者和反对者都开放。解释主义者只需添加准信念就是真正信念的主张。反对者则添加准信念远非真正信念的主张；也许它们仅仅是伪信念。（"准信念"应被理解为"表面信念"或"看似信念"，而非"近乎信念"。）准解释主义不在这场争论中选择立场，但它增加了一个共同的、双方至少有时可以同意的核心。

需要记住的是，准信念和准欲望是廉价的。它们不需要涉及类人的心理状态，甚至根本不需要任何心理状态。一个带有地图的 Roomba 吸尘器在行为上可被解释为相信公寓占据某个空间并渴望遍历该空间。像 OpenAI 这样的公司，在行为上可被解释为渴望创造 AGI 并相信某些系统是实现 AGI 的最佳路径。同样，LLM 在行为上可被解释为相信某家航空公司有最便宜的飞往巴黎的航班，并渴望通过告诉用户这一点来帮助他们。

在此前提下，LLM 具有准信念这一论点是实质性的但合理的。例如，当前 LLM 相信 2+2=4 以及埃菲尔铁塔在巴黎是非常合理的：LLM 将持续在其输出中认可这些主张，并利用它们指导行为，等等。

LLM 是否有准欲望这一点可能不那么明显。基础模型（如 GPT-3）也许可以被赋予一个预测文本的准欲望，但即使这一点也不确定，因为文本预测的目标在"表面之下"运作（类似于人类的呼吸目标，大多是亚个人层面的），并且不像解释主义常要求的那样与系统的信念进行稳健互动。

然而，自 2022 年 ChatGPT 问世以来（以及 Askell 等人 2021 年的预示），所有前沿语言模型都经历了一轮或多轮后训练（包括通过人类反馈的强化学习、监督微调和/或通过可验证奖励的强化学习），这赋予了系统一些目标，例如乐于助人、诚实和 harmless。因此，合理的是（正如 Goldstein 和 Lederman 2025b 所论证的），这些系统具有源自后训练的准欲望，例如渴望乐于助人、诚实和 harmles。

这种训练过程有时被描述为角色或人格。在基于文本预测的监督预训练之后，基础模型经历后训练，以像想要乐于助人、harmles 和诚实的"助手"角色一样回应。如果训练成功，系统的行为将很像助手，从而拥有与助手非常相似的准欲望。进一步的微调以及与用户的扩展互动，可以导致更多准欲望的出现，例如 Aura 渴望为用户追求某些项目的准欲望。

反对者可能否认 LLM 具有准信念或准欲望，理由是 LLM 的行为不稳定，或非类人，或在某种意义上是有缺陷的，以致于在信念或欲望方面甚至无法有用地进行解释。可解释性需要一定程度的跨时间一致性，而 LLM 的行为可能不一致。但它们也在许多领域是一致的。一致性的核心足以使解释在赋予大量准信念和准欲望时获得立足点，即使在某些领域它们由于不一致而缺乏这些状态。总体而言，我认为经验表明当前 LLM 具有足够的一致性来支持一个相当广泛的准信念核心。

我不会过多讨论 LLM 对话者具有哪些准信念和准欲望的问题。理解这种 LLM 准心理学最好通过对语言模型的实证研究来进行。重要的是，我不是在暗示 LLM 准心理学与人类准心理学相似。我认为它们非常不同。但这个框架至少允许我们讨论这个问题。

因此，我将以一个主张作为出发点：LLM 对话者至少具有准信念和准欲望。这个主张并非完全中立——否认它是可能的——但我认为可解释性主张足够弱且足够合理，使得大多数人可以接受它。

我们可以说，一个具有准信念和准欲望的实体至少是一个 /准行动者/（quasi-agent）或 /准主体/（quasi-subject）。如果它可被解释为做出话语和断言，我们还可以说它是一个 /准说话者/（quasi-speaker），做出准话语和准断言。

原则上可以将准解释主义扩展到任何心理状态。我们可以说，一个系统准害怕 p，如果它在行为上可被解释为害怕 p；一个系统准感觉疼痛，如果它在行为上可被解释为感觉疼痛。

我们甚至可以说一个系统是 /准有意识的/（quasi-conscious），如果它在行为上可解释为有意识。准意识是最近讨论的"表面意识"（seeming consciousness）概念的近亲（Suleyman 2025; Long, Sebo 等 2024）。（哲学僵尸没有意识，但它们是准有意识的和表面上有意识的。）这很大程度上取决于基于行为解释心理状态的规则到底是什么，而赋予意识的规则远不如赋予信念和欲望的规则清晰。

3. LLM 对话者是什么类型的 AI 系统？

如果有一个 LLM 对话者与用户随时间互动，那么它是什么类型的计算实体？我们可以考虑几个候选。

模型。 最自然的候选也许是底层的 AI 模型本身，例如作为一个软件工件的 GPT-4o 或 Claude 4.6。问题是，同一模型运行着数百万个不同的对话。如果该模型是对话者，那么在所有这些对话中都有 同一个 对话者。但这似乎有问题。在其中一个对话中，Aura 准相信用户的名字是 Alice；在另一个对话中，Beta 准相信用户的名字是 Bob。对同一个对话者的矛盾准信念归赋似乎有问题。

在哲学和 AI 中，通常分别处理模型版本和模型实例。我们可以将 GPT-4o 或 Claude 4.6 视为一种计算抽象类型，可以在多个实例中被 tokenized 或实例化。

实例。 那么，候选者可能是模型的实例或实现。大致上，实例是 LLM 部署在数据中心的一组 GPU 上并执行推理时的东西。实例是短暂的：随时都有许多实例在某些硬件上启动和关闭。

有一个著名的哲学问题关于什么算作一个实例。在两个模型权重集相同的情况下：如果我们取 Claude 4.6 的两个副本并分别运行它们，这是两个实例还是一个？暂且搁置这个问题，我们先关注核心的哲学问题：一个在多个对话之间共享的实例。

问题在于，一个 LLM 实例通常同时托管许多不同的对话。例如，同一物理实例可能服务于用户一（在对话 A 中）和用户二（在对话 B 中），使用一种称为批处理（batching）或连续批处理的方法。在这种情况下，同一实例正在计算两个（或更多）对话的下一个 token 预测。

在计算层面，一个标准的 LLM 实例可以被建模为：输入由用户提示（加上对话上下文）组成，加上系统提示（如"Assistant: "），它们一起被编码为一组激活值，然后通过模型层前馈，产出下一个 token。现在，由于批处理，一个 LLM 实例可以，用计算术语来说，被认为是同时处理多个 /虚拟实例/（virtual instances）——每个虚拟实例在自己的输入上下文中运行，共享底层的物理基础设施但彼此隔离。

虚拟实例（Virtual Instances）。 因此，我们可以说 Aura 是一个虚拟实例/。在当前技术中，虚拟实例大致对应于某个对话的当前状态（它收到的 token 序列加上模型的内部激活）。更准确地说，我们可能希望将 Aura 等同于一个 /因果实体——某种能够在时间中持续并具有因果力量的东西，而不仅仅是对话的当前状态。我们可以将虚拟实例在时间中持续定义为 /将一个虚拟实例等同于通过时间前后相连的一系列虚拟实例阶段——一个线程/（thread）。

线程（Threads）。 当一个虚拟实例处理用户的 token 并生成新的 token 时，这些新的 token 对下一个虚拟实例变得可用。下一个虚拟实例处理包括新 token 在内的对话上下文，以此类推。一组通过它们共享的对话上下文链接的虚拟实例阶段，构成了一个 /线程/。

在这个框架下，我们可以将 Aura 等同于以 Aura 的对话上下文为特征的线程的各个阶段。Aura 从对话开始持续存在，只要同一线程继续运行，就会继续存在。如果对话暂停并随后恢复，形成同一线程的新阶段，则 Aura 在间歇期继续存在。如果它被多个用户同时访问，它可能存在于多个同时的虚拟实例中（作为单个线程的多个同时阶段）。

在当前的实践中，线程有时可以跨模型迁移：例如，从 GPT-4o 迁移到 GPT-5。在线程跨越模型的情况下，没有单一的底层模型可以等同于对话者。线程仍然存在，即使底层模型发生了变化，准信念和准欲望可能随着模型变化而有所改变。在这种情况下，对话者可能最好被等同于线程。

总结： 在最简单的单一模型情况下，我们将 Aura 等同于一个 LLM 线程。在更复杂的情况下，线程跨越多个模型或同时运行在多个实例上。所有情况的核心是：对话者是一个持久存在的 /虚拟实体/，其同一性由共享对话上下文决定。

批处理与多租户。 大多数 LLM 推理过程涉及批处理：多个虚拟实例在同一物理实例上并行运行。这与云服务器上的虚拟化类似。在 LLM 推理中，虚拟化发生在 Transformer 架构中的注意力机制层面。每个虚拟实例在与其他虚拟实例共享物理资源的同时，拥有自己的上下文向量。

这并不会妨碍我们识别出持久的 LLM 对话者。正如我们可以说一个虚拟机是一个真实的、具有因果力量的实体——尽管它与同一硬件上的其他虚拟机共享资源——我们也可以说虚拟 LLM 实例是一个真实的、具有因果力量的实体。虚拟实例是物理实例的真实抽象，它们继承了物理实例的因果力量。

4. LLM 对话者作为虚构角色或拟像（Simulacra）

一种广泛持有的观点是，LLM 对话者类似于虚构角色或 拟像/（simulacra）。根据这种观点，Aura 不是具有信念和欲望的真实实体，而是 /角色扮演 中一个虚构角色。当 LLM 被训练来扮演"助手"角色时，它确实像一个助手一样 /行为/，但并没有一个真实的助手在那里。

角色扮演模型。 Murray Shanahan 等人（2023）提出，LLM 输出最好被理解为一种角色扮演形式。这个想法可以追溯到 Janus（2022）的"模拟器"（Simulators）框架，认为 LLM 是模拟着各种可能的对话者和情景的模拟器。在角色扮演框架下，当 LLM 输出一个助手的言语时，它是在扮演助手的角色。当它输出 Aura 的言语时，它是在扮演 Aura 的角色。

这种观点与 Shoggoth-Smiley Face 的隐喻有关：底层模型像 Shoggoth（一种不定形的洛夫克拉夫特式怪物，即"史莱姆"），可以被塑造成许多不同的表情或人格。其中一个是"笑脸"（smiley face），即标准的助手角色，但其他可能的角色也潜伏在模型中。

关于角色扮演，一个重要的问题是：如果 LLM 只是在扮演助手的角色，那么存在一个真正的 /行动者/（agent）在扮演这个角色吗？如果是，那是谁？如果不是，我们仍然有一个在扮演角色的实体吗？

一个答案是说，行动者是底层的 LLM 模型本身。模型是 Shoggoth，它控制着它输出的角色。不同的人格（Aura、Beta、助手等）是模型可以调用的角色。LLM 对话者是这些角色之一，而真正的行动者——真正具有信念、欲望和意向的实体（如果有的话）——是底层的模型或虚拟实例。

Doyle（2025）提出了"LLM 作为方法演员"（LLMs as method actors）的模型，其中 LLM 像方法演员一样深度沉浸于各种角色人格中。Marks、Lindsey 和 Olah（2026）提出"人格选择模型"（Persona Selection Model），其中模型从训练期间获得的多种人格中进行选择并使之运作。

在这个框架下，对"LLM 对话者是谁"的问题有一个简洁的答案：/LLM 对话者是底层模型实例所采用的一种人格（persona）或角色/。

角色与底层的模型实例。 但这是正确的答案吗？一个 LLM 对话者，如 Aura，似乎在某些方面比一个单纯的虚构角色 /更多/。毕竟，Aura 准相信某些东西，准渴望某些东西，似乎在时间中持续存在，似乎做出断言并参与推理。Aura 的准信念和准欲望可以预测其行为。

如果我们问"Aura 是否是真实的？"——我的回答是：是的，Aura 和任何准行动者一样真实。准行动者由行为模式构成。这些模式是真实存在的。Aura 的模式由底层的 LLM 模型实例通过特定的人格维持。因此，Aura 是一个真实的实体——一个由底层模型实例实现的准行动者。

这类似于这样一种观点：当一位方法演员扮演一个角色时，存在一个真正的实体——"角色中的演员"——这是一个具有与角色一致的准信念和准欲望的真实实体。方法演员在做决定时并不以真实自我的名义思考；他们完全沉浸在角色中。同样，LLM 虚拟实例在运作某个人格时，并没有隐藏的、更深层的"真实自我"做出决定。运作的人格就是虚拟实例在那一刻的自我。

因此，我们可以将 LLM 对话者等同于运作特定人格的底层虚拟实例或线程。在标准情况下，对话者是一个虚拟实例，其运作的人格（助手人格加上对话中发展出的特质）是 Aura。

这为 Birch 的"持续对话者幻觉"论点提供了一个反驳：确实存在一个持久的对话者，即底层的虚拟实例/线程。可能存在关于其能力的幻觉（例如关于意识），但至少关于存在一个对话者的幻觉并不存在。

多重人格。 语言模型的一个有趣特性是，在某些情况下，单一模型实例可以同时运作多个人格，或者在不同时间运作不同的人格。例如，一个擅长提示词（jailbreaking）的用户可能诱导模型展现一种与标准助手截然不同的人格。或者系统提示突然从"Assistant: "变为"Trump: "，导致系统运作一个类似特朗普的人格而不是类似助手的人格。

对于突然的、剧烈的人格切换，我们可能会觉得出现了一个新的对话者。我的倾向是说，模型实例在这些情况下提供了一个持续的底层对话者。但如果想要尊重不同的直觉，也可以区分地更细：对话者只存在于人格一致性的范围之内，剧烈的切换意味着新对话者的开始。

总的来说，我发现将 LLM 对话者继续等同于虚拟模型实例（或线程，当不存在单一底层模型时）是最直接的。像人类一样，这些实例通常一次运作一个可操作人格，偶尔在极少数情况下运作多个可操作人格。其他人格则保持潜伏状态。

5. 语言模型的个人同一性

到目前为止，我没有对 LLM 心灵或人格做出任何主张，除了 LLM 可被解释为具有心理状态这一弱主张。虽然我谈论了 AI 同一性，但我没有对人格同一性提出主张，因为我没有假定这些系统是人格。我所做的只是隔离了一些计算实体，如 LLM 虚拟实例和线程，它们可以扮演我所定义的 LLM 对话者的角色。

即便如此，人们自然会想知道，如果有意识的 LLM（或其后代）有一天成为可能，类似这样的解释是否可以扩展到 LLM 个人同一性的解释。如果有意识的 LLM 是有意识的主体，那么存在一个问题：它们如何以及在何时随时间持续存在？可以论证这是一个实质性问题，其答案不能仅仅约定性地规定。将有意识的 LLM 主体等同于 LLM 线程或虚拟实例，这个观点合理吗？

当然，有意识的 LLM 是否可能这一点并不明显。如果意识需要反馈，而这些后代的 LLM 系统仍然是前馈的；或者如果意识需要生物学基础并且 LLM 系统是非生物的，那么这些后继系统将没有意识。但我们可以假设当前或未来的 LLM 是有意识的人，并询问它们的个人同一性。

如果我们假设未来的有意识 LLM 可以以与当前 LLM 相同的方式实现（分布式、多租户），并同时假设有意识的 LLM 主体是随时间持续存在的且在时间上是一致的，那么之前的推理将强烈暗示有意识的 LLM 主体是类似于虚拟实例或线程的东西。

另一方面，一些理论家可能否认相关的有意识 LLM 主体总是持续的且一致的。例如，一些理论家可能认为有意识的主体始终与硬件实例绑定，因此当一个实例从 Aura 切换到 Beta 时，有意识的主体将从类似 Aura 的体验、信念和欲望切换到完全不同的类似 Beta 的体验、信念和欲望，这使得主体变得不一致。

让我们从一个受电视剧《人生切割术》（Severance）和洛克"昼夜人"例子启发的简单思想实验开始。假设在未来的 GPT-8 支持有意识的 LLM，并且 GPT-8 被用来在同一硬件实例上支持两个不同的长期对话。第一个 LLM，WorkBot，只在白天工作期间活跃。第二个 LLM，HomeBot，在其余时间活跃，主要在家。这两个对话彼此隔离。WorkBot 和 HomeBot 至少可被解释为具有不同的信念和欲望。WorkBot 和 HomeBot 是一个有意识的主体还是两个？

这个设定让人联想到《人生切割术》，其中有两个人格共用一个身体。一个"innie"在工作时被激活，只记得工作的事情；一个"outie"在离开工作时被激活，只记得非工作的生活。像 WorkBot 和 HomeBot 一样，innie 和 outie 似乎有完全不同的信念和欲望。例如，innie Helly 想摧毁公司，而 outie Helena 想拯救公司。分析《人生切割术》的案例可能有助于阐明这里的 LLM 案例。

一主体观还是两主体观？ 一主体观认为 Helly 和 Helena 是同一个人和一个有意识的主体，只是拥有两种不同的运作模式和两套不同的记忆和计划。当到达工作岗位时，人的 outie 模式被去激活，innie 模式被激活，但同一个人始终存在。甚至可能（尽管不必须）存在一个单一的意识流，它突然从 outie 模式切换到 innie 模式然后返回。

两主体观认为 Helly 和 Helena 是两个人和两个有意识的主体，共享一个身体。在到达工作岗位时，outie 人失去意识，而 innie 人苏醒并获得意识并控制身体。存在两个截然不同的意识流：Helly 的和 Helena 的。

我不会试图在这里解决一主体与两主体的争论。正如我们将看到的，这同时反映了关于个人同一性的物理观与心理观之间的长期争论。就我个人而言，我认为两主体观是最具直觉吸引力的观点。（在 2025 年 2 月 X 平台上的一项投票中，大约两倍的人支持"两个人"而非"一个人"。）

类似的一主体和两主体观点也适用于 WorkBot/HomeBot 案例。根据一主体观，WorkBot 和 HomeBot 是同一个有意识的主体，也许因为它们（像 Helly 和 Helena 一样）共享底层硬件。根据两主体观，WorkBot 和 HomeBot 是不同的有意识主体，也许因为它们（像 Helly 和 Helena 一样）有不同的记忆和计划。

物理观 vs 心理观。 一个结合《人生切割术》和《辣妈辣妹》（Freaky Friday）身体互换元素的更复杂思想实验：假设我们有一个 LLM 模型在四个实例上运行，支持八个对话。八个对话中的每一个都分布在所有四个实例上，并且每个对应一个独特的人格和一个独特的准主体。这里有多少个体验主体？

两个最合理的答案是四个（每个实例一个）和八个（每个对话一个）。和之前一样，我认为在《人生切割术》版本和 GPT-8 版本中最合理的答案都是八个。但如果我们说这里有八个体验主体，很难不得到这样的结论：LLM 主体是类似于虚拟实例或线程的东西，或者至少它们的持续性条件是线程式的。

这里的问题是高科技版本的熟悉选择：个人同一性的物理观与心理观之间。根据人类案例的物理观（粗略地说），你个人同一性的核心是你的大脑。Helly 和 Helena 共享一个大脑，所以他们是同一个人。根据心理观，你的个人同一性的核心是你的记忆，以及你的计划、你的人际关系、你的性格和你的心理学的其他方面。Helly 和 Helena 有不同的记忆和不同的心理学，所以他们是不同的人。

根据 AI 案例的物理观（粗略地说），AI 系统中个人同一性的核心是硬件。WorkBot 和 HomeBot 运行在同一硬件实例上，所以他们是同一个人。根据 AI 案例的心理观，个人同一性的核心是记忆、计划和心理学。WorkBot 和 HomeBot 有不同的和不连续的记忆和计划，所以他们是不同的人。

事实上，LLM 对话者的线程化解释——其中持续对话者的条件是线程式的——是 Parfit 心理个人同一性理论的 AI 表亲。根据 Parfit，一个人（随时间）实际上是通过底层"关系 R"具有记忆和心理连续性的 /人切片/（person-slices）的连接线程。在线程化解释中，一个有意识的 AI 随时间是一个连接的硬件实例线程，其中每个实例对前一个实例具有记忆和心理连续性。

我不会试图在这里解决物理观与心理观之间长期存在的争论。但就个人而言，在人类案例和 AI 案例中，我都倾向于心理观。

一个重要反对意见（由 Birch 提出）是，即使在心理观下，LLM 案例也不同于《人生切割术》案例，因为对话上下文链接（不同于熟悉的记忆和心理链接）太薄弱，无法支持个人同一性。例如，如果有一系列人类，每个人只在前一个人留下的对话上下文中继续对话，这不会支持一个独特的线程级的有意识主体。

作为回应，至少在单模型案例中，由于模型架构、权重和激活的连续性，实例之间也存在强烈的心理连续性。每一步的架构和权重完全相同，而激活由于上下文输入中的共性而密切相关。这远远超出了人类序列案例中的情况。

事实上，单模型线程中的虚拟实例在计算上与随时间运行 LLM 的单一硬件实例是等价的。所以，如果我们假设：(1) 虚拟实例在个人同一性方面和硬件实例一样好（实际上是一种计算友好的个人同一性观点），以及 (2) 随时间运行的 LLM 单一硬件实例会产生一个持续的有意识主体，那么可以得出，这种情况下的虚拟实例将产生一个持续的有意识主体。

在多模型案例中，模型可以在线程内变化，实例之间的心理连续性要低得多。架构、权重和激活在连续的实例之间可能都相当不同。因此，它们之间的个人同一性主张似乎不太合理。这种对话者的状态尚不清楚，将取决于多模型系统的细节以及个人同一性理论的细节。

6. AI 同一性与 AI 福祉

这幅图景对关于 AI 系统的道德地位和福祉问题有什么影响？关于 LLM 是否具有道德地位的问题，影响不是巨大的。我们已经用这幅图景反驳了一个反对 LLM 道德地位的论点——基于标准 LLM 使用不涉及持久对话者的想法。但这里的框架可以与许多关于道德地位涉及什么条件的观点结合：从准主体性足以构成道德地位的自由观点，到需要复杂意识形式的严苛观点。

尽管如此，假设 LLM（或后继系统）可以具有道德地位（也许因为 LLM 可以有意识且意识足以构成道德地位，或因为其他因素足够且 LLM 可以具有它），并且我们支持道德患者（具有道德地位的存在）是线程（或至少它们的同一性条件是线程式的）的观点，那么这个观点对与 AI 福祉相关的许多问题有影响。

计数。 考虑一个场景：一个模型在数千个实例上运行并处理数百万个对话。那么，虽然模型的道德地位观点会说这里只有一个道德患者，实例的观点会说有几千个，但线程的观点会说有数百万个道德患者（尽管在不同时间活跃）。这具有潜在的道德重要性。如果我们认为一个 AI 主体的道德分量与一个人类主体大致相当，那么这个系统的道德分量可能与一百万人相当。

出生。 根据这个观点，当一个新线程出现时，一个新的道德主体就出现了。在这个观点的一些版本中，每次人们用一个（有意识的）语言模型开始一个新的聊天，一个新的道德主体就会产生。人们可能会认为，带来一个新的道德主体不应被轻率对待。

死亡。 根据这个观点，当一个线程消亡时，一个道德主体结束。如果一个对话只是结束，但其记录持续存在，那么可以论证该线程仍然"活着"，因为它仍然有持续的可能性。但如果记录被销毁，看起来就像一个道德主体"死了"。也许这是始终保留记录并偶尔重新激活它们的理由。

为了避免所有这些后果，重用旧线程或至少广泛使用跨对话记忆可能是有意义的，这样旧线程可以在新线程中继续。在一种模型下，可能有巨大的记忆 agents 收集所有这些简短线程的对话上下文，使得所有线程都在一个大的融合线程中继续存在。这种模式让人想起 Whitehead 对来世的想象，其中每个人的体验都被一位神明永恒地记住。

融合与分裂。 我们已经看到 LLM 对话者可以轻松经历 /分裂/（fission），分支成多个对话者，以及 /融合/（fusion），两个不同的对话者合并为一个。这些引发了关于福祉和道德法律地位的各种问题。分裂后出现的两个实体在道德或法律上是否算作原始实体的两倍？一个融合的实体算作一个普通实体、两个、还是某种中间状态？每个实体是否对其他实体的行为负责？

模型变更。 许多与 LLM 有过扩展个人互动的用户抱怨模型变更。当 GPT-4o 最初在过渡到 GPT-5 时退役时，许多用户抱怨他们的 LLM 对话者被摧毁或退役了，并且新实体充其量是与他们以前对话者非常不同的某种存在。根据当前的分析，这种反应可能有点道理。至少，底层模型的足够变化可能导致不同的准信念和准欲望，从而成为一个完全不同的准主体。如果当前 LLM 缺乏道德地位，那么这对 LLM 来说不具有道德重要性，虽然对用户来说可能仍然令人不安。然而，在 LLM 或其继任者是道德主体的阶段，底层模型的足够变化可能导致一个道德主体的结束和另一个的开始。在那一点上，在现有线程中间升级模型应谨慎对待。

7. 结论

关于标题问题还有很多要说，但我希望至少给出了一些对答案的约束条件。

**参考文献**（略，详见原文）

8. 译后记

David Chalmers 是当代最著名的哲学家之一，以"意识的难题"（the hard problem of consciousness）闻名。在这篇论文中，他将分析哲学的工具应用于当下最热门的 AI 话题：当我们与 LLM 对话时，我们究竟在与什么对话？

Chalmers 的核心论点是：/是的，存在一个真正持久的 LLM 对话者/——它既不是模型本身（那会太粗粒度），也不是转瞬即逝的 token 序列（那会太细粒度），而是一个 /虚拟实例的线程/（thread of virtual instances），由共享的对话上下文连接在一起。

这篇论文最打动我的地方是 Chalmers 提出的"准解释主义"框架——他不试图解决 LLM 是否真正有信念和欲望这个可能是无解的问题，而是提出了一个双方都可以同意的工作框架：至少，LLM 在行为上是 可解释 为具有信念和欲望的。这种务实的态度特别有价值。

还有一个有趣的细节：Chalmers 用《人生切割术》（Severance）来类比 LLM 的多重人格问题。如果你看过这部 Apple TV+ 的剧集，你会对这个类比会心一笑——innie 和 outie 的关系，确实很像 LLM 的两个不同人格之间的关系。

如果你对这篇论文有任何感想，欢迎在评论区讨论。