关于人体模型的思考

||分析

这是由MIRI研究助理和DeepMind研究科学家Rama金宝博娱乐na Kumar和MIRI研究员Scott Garrabrant共同发布的一篇文章AI对齐论坛LessWrong


人类的价值观和偏好很难明确,尤其是在复杂的领域。因此,德盛安联的安全研究主要集中在涉及人类价值观和偏好的德金宝博娱乐盛安联设计方法上间接地,通过学习了在人的价值的表达式接地的模型(通过规定的喜好,观察到的行为,核准,等)和/或产生这些值的表达式真实世界的过程。还有另外办法旨在模拟或模仿人的认知和行为的其它方面没有捕捉人的偏好的明确目标(但通常在最终满足他们的服务)。让我们指的是所有这些模型人体模型

在这篇文章中,我们讨论了对使用人体模型的AGI设计保持谨慎的几个原因。我们建议AGI安全研究团体在开发没有人体模型的方法以及依赖人体模型的方法时,投入更多的精力。这将是对当前安全研究领域的一个重大补充,特别是如果我们专注于制定和尝试具体的方法,而不是发展理金宝博娱乐论。我们也承认避免人类模型看起来很困难的各种原因。

与人体模型的问题

需要明确的是关于人的模型,我们得出我们的实际偏好(这可能不是我们完全访问)和程序之间的粗略判别评估我们的喜好。首先,实际的喜好,是什么人居然要经过深思熟虑。满足我们的实际喜好是一个双赢。第二件事,评估喜好程序,是指各种代理我们的实际偏好,例如我们的批准,或者什么看起来不错,我们(有一定局限于信息或时间思考)。人体模特是第二类;考虑,作为一个例子,人类是高度准确的ML模型所设定的结果的描述的/没有批准。我们首先关注的,下面所描述的,是关于过度拟合人批准,从而打破了我们的实际喜好连接。(这是古德哈特定律的情况。)

更少的独立审计

想象一下,我们已经建立了一个AGI系统,我们想用它来设计一金宝博官方个新的城市的公共交通系统。与这类工程有关的安全问题是众所周知的;假设我们不完全确定我们已经解决了这些问题,但仍然有足够的信心去尝试。我们在沙箱中对一些虚假金宝博官方的城市输入数据运行系统并检查其输出。然后我们用一些更古怪的假城市数据来评估分布变化的稳健性。AGI的输出看起来像是合理的运输系统设计和考虑,包括参数、指标和其他证明它们是好的支持证据。金宝博官方我们是否应该感到满意,并准备在真实城市的数据上运行系统,并实现所提出的设计方案?金宝博官方

我们认为,回答这个问题的一个重要因素是AGI系统是否使用了人类建模。金宝博官方如果它能在没有人类模型的情况下为交通设计问题(人类认可的)提供一个解决方案,那么我们就更容易相信它的输出。如果它提出了一个我们认可的解决方案用人体模型,那么尽管我们期望输出对好的交通系统设计在许多方面(我们的实际偏好)和在许多方面适合被人类认可,在一定程度上,这两个目标分开我们必须担心有overfit金宝博官方人类模型的良好设计。(为什么不反过来呢?因为我们对沙箱测试结果的评估使用的是人类的判断,而不是我们实际喜好满意度的独立指标。

人类倾向于不弄错设计的质量,更不用说被它愚弄了。我们希望在多大程度上依赖于在系统中正确捕获这些首选项?金宝博官方如果系统是模仿金宝博官方人类,我们强烈依赖于系统的学习和满足这些偏好,否则我们就会被愚弄到这样的程度:一个好看但实际上很差的交通系统设计比一个实际上很好的设计更容易组成。另一方面,如果系统没有对人进行建模,那么它的输出看起金宝博官方来像一个好的设计,这一事实更能证明它实际上是一个好的设计。直观地说,如果我们考虑对可能的输出进行抽样,并对输出设置良好的条件(通过对人类的了解),那么当系统的知识更多地是关于什么是好的而不是什么看起来是好的时,输出良好的概率(通过对领域的了解)就会更高。金宝博官方

这里有一个解决这个问题的方法:希望独立审计系统输出的。金宝博官方当系统使用人体金宝博官方模型时相互信息在它的输出和审计过程(人的判断)之间是更高的。因此,使用人工模型会降低我们进行独立审计的能力。

避免人体模型并不能完全避免这个问题。仍然有一个“外环优化”版本的问题。如果系统在沙箱中产生一个奇怪的或有缺陷的设计,并且我们在审计过程中发现了这个问题,那么我们可能会拒绝该解决方案,并尝试调试产生它的系统。这会导致对整个过程(在审计和调试阶段涉及系统的多个版本)的偏见,倾向金宝博官方于欺骗审计过程的输出。

然而,外环优化压力比内环优化压力更弱,因此也就不那么令人担忧。我们会说这个问题更糟。在美国,当人们使用人体模型时,对欺骗的偏见会更强烈。这是因为相关的优化是在循环中进行的,并且更容易遇到。

再举一个例子来说明这一点,考虑一个经典的古德哈特定律的考试教学的例子。如果你学习材料,然后参加一个测试,你的测试分数显示你对材料的知识相当好。如果你转而研究过去的考试,你的考试分数就会显示出你通过考试的能力,这可能与你对材料的知识有关,但随着分数的上升,这种相关性越来越小。在这里,人类模型与过去的测试类似,而实际的偏好与材料类似。参加测试类似于审计,我们希望它独立于研究方案。

从错误的风险

我们可能在日常意义上错误地实现了我们的第一个AGI系统。金宝博官方具体地说,即使我们完全开发了一个安全或一致的AGI理论,我们也可能由于我们的实现技术的缺陷或问题而无法实现该理论。在这种情况下,如果AGI的知识和人类偏好之间的相互信息很低,我们的情况会相对好一些。我们期望系统的行为在某种程度金宝博官方上依赖于它的知识,我们期望实现错误将依赖的性质从我们的意图和期望中转移出来。依赖于人类偏好的不正确行为似乎比不依赖于人类偏好的不正确行为更危险。

考虑AGI系统实现的空间,在类似于预期设计的相似性的金宝博官方度量下(等效地:由于缺陷而偏离设计的严重程度)。我们希望我们构建的第一个AGI系统附近的所有点都是安全的,因为我们可能会由于一些原因金宝博官方(例如对我们正在做的事情感到困惑或者犯了实现错误)而导致设计与预期略有不同。

错误的风险至少可以通过三种方式表现出来。

错误的编码值:假设我们打算首次使用AGI来解决一些有界的、指定良好的任务,但是我们误解了它,或者执行得很糟糕,以至于我们最终得到的实际上是无限制地优化某个目标函数。如果目标是像解谜这样的抽象的东西,而不是与人类偏好直接相关的东西,那就更好了:举个玩具的例子,如果目标周围的符号(正面/负面)是错误的。

操纵:独立审计早期的论据并不只是适用于我们计划审计的具体任务,也是任何活动AGI系统可能进行人类可能不赞成。金宝博官方例子包括设法侵入我们的所谓安全系统,从我们隐藏自己的意图和活动,或直接操纵我们。金宝博官方这些任务都是可以访问的人的良好的心理模型,它可以被用来推断,我们可能会做出什么错误,或者是什么漏洞,我们可能会忽略,或者我们如何从系统中不同的行为反应要容易得多。金宝博官方

在设计空间中,人体造型与人体操纵非常接近。一个拥有精确的人类模型的系统接近一个成功地利用这些模型操纵人类的系统。金宝博官方

威胁:缺陷的另一个风险不是来自于AGI系统不正确地关心我们的价值,而是来自于安全性不足。金宝博官方如果我们的值被精确地编码在一个关心满足它们的AGI系统中,那么它们就会成为来自其他参与者的威胁金宝博官方的目标,这些参与者可以从操纵第一个系统中获益。已经描述了关于这个问题的更多例子和观点在这里

从人体建模的bug的风险增加可以总结如下:即AGI系统产生灾难性的后果,由于错误的任何风险,最坏的结果似乎更有可能,如果系统是使用人体模型的培训,因为这些最坏的结果取决于信息金宝博官方在人体模型。

不太独立的审计和来自缺陷的风险都可以通过保持系统与人工模型信息的独立性来降低,这样系统就不会过度适应这些信息,也不会滥用这些信息。金宝博官方我们考虑的剩下的两个问题,精神犯罪和意想不到的代理人,更多地依赖于这样的主张,即模拟人类的偏好增加了模拟类似人类的东西的机会。

心灵犯罪

许多计算可能产生与道德相关的实体,因为,例如,它们构成了体验痛苦或快乐的有知觉的存在。博斯特罗姆称对这些实体的不当处理是“精神犯罪”。以某种形式为人类建模似乎比不为人类建模更有可能导致这样的计算,因为人类在道德上是相关的,而系统的人类模型可能最终共享任何使人类在道德上相关的属性。金宝博官方

意外的代理

上述犯罪记点类似,我们预计AGI公司设计利用人的造型更加的生产是类似代理子系统的风险,因为人类是代理等。金宝博官方例如,我们注意到,试图预测结果主义推理的输出可以减少优化问题在包含后果论推理的东西的空间。工程金宝博官方预测人类偏好的系统以及严格似乎更容易碰上与错位子代理相关的问题。(不过,我们认为由它更可能量很小。)

没有人体模型的安全AGI被忽略

考虑到独立审计的关注,加上上面提到的附加点,我们希望看到更多关于开发不依赖于人工建模的安全AGI系统的实际方法的工作。金宝博官方目前,这是AGI安全研究领域中一个被忽视的领域。金宝博娱乐具体来说,“这是一个建议的方法,下面是进一步尝试或进一步研究的步骤”,我们可以称之为“工作”工程为重点的研究金宝博娱乐,是在人类造型方面几乎全部完成。我们在那里做看出,避开人体建模的一些安全工作,它往往是理论研究金宝博娱乐,例如,MIRI对代理的基础工作。这并不填补安全工程,重点工作的差距没有人体模特。

充实的差距要求,考虑每一个安全研究中的以下努力通常的配方:重复蒸馏和放大,辩论,递归奖励建模,协同逆强化学习,和值学习。金宝博娱乐在每一种情况下,有内置的方法基本设置人体模型。然而,我们注意到,在这些领域的技术成果可以在某些情况下是可移动的,以建立一个没有人的造型,如果人的反馈(等)源被替换为纯算法,独立的系统。金宝博官方

不依赖于人体建模一些现有的工作包括制定安全可中断的代理,公式影响的措施(或副作用)、涉及构建具有明确正式规范的AI系统的方法(例如,某些版本的工具AIs金宝博官方)、某些版本的oracle AIs,以及装箱/封装。虽然他们不依赖人类的造型,不过这些方法最有意义的上下文,人类造型正在发生:例如,影响措施似乎最有意义的代理将在现实世界中,直接操作等代理可能需要人工造型。然而,我们希望看到更多这类的工作,以及构建不依赖于人类建模的安全AGI的新技术。

难以避开人体模型

一个看似合理的原因是,在没有人类模型的情况下,我们还没有看到关于如何构建安全AGI的大量研究金宝博娱乐,原因是它很困难。在本节中,我们描述了一些不同的方法,在其中它是困难的。

用处

如何使用一个不适合人体建模的系统并不明显。至少,这并不像那些进金宝博官方行人体建模的系统那么明显,因为它们直接利用有用行为的信息来源(如人类偏好)。换言之,不清楚如何解决规范问题,即如何在没有人为建模的情况下,在复杂领域中正确地指定所需(且仅指定所需)行为。“反对人类建模”的立场要求解决规范问题,其中有用的任务被转化为明确规定的、独立于人类的任务,要么由人类单独完成,要么由不建模人类的系统完成。

为了说明,假设我们已经解决了像定理证明或原子精确的制造明确定义好的,复杂的,但人的独立任务。那么我们该如何利用这个解决方案可以提供良好(或更好)的未来?让每个人都能,甚至几个人,获得了超智系统不直接编码在某些方面它们的值并不明显产生,在未来,这些值实现。金宝博官方(这似乎涉及到魏代的人类安全问题。)

隐式人体模型

即使是看似“独立”的任务泄漏至少他们在人类起源的动机一点信息。再考虑公共交通系统的设计问题。金宝博官方由于问题本身涉及人类使用系统的设计,似乎难以避免在指定的任务,在所有建模人类。金宝博官方更微妙的是,即使是像解谜高度抽象的或一般的任务包含有关谜题的源/设计师的信息,特别是如果他们已调整编码更明显的以人为本的问题。(由工作Shah等人。看起来在使用有关在全球潜伏人的喜好的信息。)

规范竞争/做我想做的

在,比方说,一个优化目标(其中的强化学习问题将是一个特定的情况下)的形式任务的明确说明被称为是脆弱的:通常有我们关心的是被甩明确规范的东西出来。这是动机之一寻求越来越多的高层次和间接的规格,留出更多的搞清楚到底是什么做的机器的工作。然而,目前很难看到如何打开任务的过程(定义模糊的),而人类模拟自动为正确的规格。

人类模型的绩效竞争力

对人类进行建模可能是在我们希望应用AGI系统的各种任务上获得良好性能的最佳方法,原因不仅仅是为了很好地理解问题规范。金宝博官方例如,在AGI系统中,我们可能或多或少想要复制人类认知的某些方面,以便在自动化这些认知功能方面具有竞争力,而这些方面可能以一种难以分离的方式携带了大量关于人类偏好的信息。金宝博官方

怎么办没有人的模型?

我们已经看到了支持和反对使用人体模型解决AGI安全问题的观点。回顾这些论据,我们注意到,在某种程度上,人体建模是一个好主意,很重要的是要做得很好;在某种程度上,它是一个坏主意,最好是根本不做。因此,是否进行人体建模是一个配置位,在考虑建立安全AGI的方法时,可能应该提前设置。

应该指出的是,上述论据并非旨在起决定性的作用,而且可能存在一些抵消性的考虑,这意味着尽管本文概述了风险,我们仍应促进使用人体模型。但是,如果有人体模型的AGI系统比没有人体模型的AGI系统更危险,我们可能会尝试两种广泛的干预方法。首先,通过推广一些研究路线,可能值得尝试降低先进人工智能“默认”开发人类模型的可能性。例如,在程序生成的虚拟环境中训练的人工智能似乎比在人工生成的文本和视频数据上训练的人工智能更不可能开发人体模型。金宝博娱乐金宝博官方

其次,我们可以专注于不需要人体模型的安全研究,这样,如果我们最终建金宝博娱乐立的AGI系统在不使用人体模型的情况下具有很高的能力,我们就可以使它们更安全,而无需教它们建模人类。我们前面提到的一些此类研究的例子包括开发独立于人类金宝博官方的方法来测量负面影响,防止规范博弈,建立安全的遏制方法,以及扩展以任务为中心的系统的有用性。

确认:感谢Daniel Kokotajlo、Rob Bensinger、Richard Ngo、Jan Leike和Tim Genewein对本文草稿的有益评论。