我们2018年的募款活动正在进行中!!

子系统金宝博官方对齐

||分析


艾美奖嵌入式代理

你想知道什么,但你还不知道怎么做。

你必须以某种方式的任务分解成sub-computations。没有原子的行为”思考”;情报必须建立原始部分。

代理被制成的零件是什么使的一部分反设事实努力,自从代理可能不得不思考可能的配置部分。

使被做的部分self-reasoning和self-modification甚至成为可能。

我们主要要讨论在本节中,不过,另一个问题是:当代理的部分,可能会有对手不仅在外部环境,但在代理。

此集群的问题子系统金宝博官方对齐:确保子系统不是南辕北辙工作;金宝博官方避免子流程优化为意想不到的目标。

  • 良性的感应
  • 良性的优化
  • 透明度
  • 内部优化


这里有一个稻草代理设计:

草剂和认知工具子系统金宝博官方

认知子系统只希望准确的信念。金宝博官方工具子系统使用这些信念跟踪它是如何做的。金宝博官方如果仪器子系统太能相对于认知子系统,金宝博官方它可能决定试着愚蠢的认知子系统,金宝博官方作为描述。

如果认知子系统太强大,金宝博官方也可能会引出坏的结果。

这个代理的设计对系统的认识和工具子系统作为离散代理商与自己金宝博官方的目标,这并不是非常现实的。然而,我们看到的部分有经验玩家子系统工作目的不一的问题是很难避免的。金宝博官方这是一个困难的问题,如果我们没有故意构建相关的子系统。金宝博官方


原因之一,以避免启动子代理的人需要不同的是,我们想要的东西鲁棒性相对规模.

一个方法是强大的规模如果它仍能工作,优雅地或失败,规模的能力。有三种类型:鲁棒性,扩大;;鲁棒性,按比例缩小;和鲁棒性相对规模.

  • 鲁棒性,扩大意味着你的系统并不能阻止的行为如金宝博官方果得到更好地优化。检查的一种方法是考虑会发生什么,如果AI优化实际上是函数最大化.认为古德哈特定律.

  • 鲁棒性,按比例缩小如果让系统意味着你仍然可以运行金宝博官方更少的强大.当然,它可能不再是有用的;但它应该不安全,没有不必要的成本。

    您的系统可金宝博官方能工作如果它可以完全最大化一些函数,但如果你近似安全吗?例如,也许系统是安全的金宝博官方,如果它可以学习人类的价值观非常精确,但近似使它越来越失调。

  • 鲁棒性相对规模意味着你的设计不依赖于代理的子系统是同样强大。金宝博官方例如,,氮化镓(生成对抗网络)培训可以失败如果一子太强烈,因为不再有任何训练信号。

氮化镓培训

缺乏鲁棒性并不一定规模的东西杀死了一个提议,但这是需要注意的;缺乏规模,鲁棒性你需要强有力的理由认为在合适的规模。

鲁棒性为子系统对齐相对比例尤为重要。金宝博官方与智能代理附带不应该依赖于能够战胜他们,除非我们有一个强大的账户为什么总是可能的。


整体道德:目标是有一个统一的系统,不工作南辕北辙。金宝博官方

为什么会有人让一个代理部分对抗另一个吗?显而易见的原因有三:子目标,,指针,和搜索.

分手了一个任务子目标可能是唯一的方法有效地找到解决的办法。然而,子目标计算不完全忘记大局!!

代理人为了盖房子不应该启动子代理谁在乎只有建筑楼梯。

一个直观的梦想是,虽然子系统需要有自己的目标,以将问题分解成部分,金宝博官方子目标需要"点”"强劲的主要目标。

建筑代理可能旋转一个子系统只在乎楼梯,金宝博官方但只关心楼梯的上下文中房子.

然而,你需要这样做,不只是你的建筑量系统拥有第二个建筑内部。金宝博官方这让我的下一个项目:


指针子系统:它可能难以携带金宝博官方全系统金宝博官方目标周围,因为他们需要减少这个问题。然而,这种间接似乎鼓励不同子系统的激励偏差的情况。金宝博官方

我们看到在认知和工具子系统的例子,金宝博官方一旦我们开始优化的期望,而不是直接获得反馈对我们所做的实际上是重要的指标,我们可能会产生不正当的激励措施,古德哈特定律。

我们如何让一个子系统”金宝博官方做X”而不是“说服我做X”的更广泛的系统金宝博官方,没有传递整个总体的目标系统?金宝博官方吗?

这类似于我们想要的方式继任者代理坚定点值,因为它是太难价值观写下来。然而,在这种情况下,学习的价值更大的代理没有任何意义;子系统金宝博官方和子目标需要.


它可能不是很难解决子系统人类完全设计子系统对齐,金宝博官方或子目标一个AI显式地旋转起来。如果你知道如何避免偏差设计和强劲委托你的目标,似乎这两个问题都可以解决的。

然而,它似乎不可能设计明确所有子系统。金宝博官方在解决一个问题,你把它尽可能多你知道如何,必须依靠一些试验和错误。

这就引出了第三个原因子系统可能优化不同的东西,金宝博官方,搜索:解决问题通过丰富空间的可能性,一个空间本身可能包含失调的子系统。金宝博官方

毫升人金宝博娱乐员非常熟悉这一现象:它更容易编写一个程序找到一个高性能的机器翻译系统比直接写一个你自己。金宝博官方

从长远来看,这个过程可以更进一步。丰富的足够的问题,一个令人印象深刻的搜索过程中,通过搜索可能自己找到的解决方案智能优化一些东西。这个问题是Hubinger中描述,等的即将到来的“内部一致性问题”.

我们叫外搜索过程”外部优化器”,和内部搜索过程”内部优化器”.

"优化”和“搜索”模棱两可的条款。我认为任何算法都可以自然地解释为做大量的计算工作”找到“一个对象,分数高一些目标函数。

目标函数外部优化器的不一定是一样的内部优化。如果外部优化器想要做披萨,内部优化器可能享受揉面,切成分,等等。

内部目标函数必须有帮助的外,至少在例子外部优化器检查。否则,内部优化器就不会被选中。

然而,内部优化器必须减少问题某种程度上;没有指向它运行相同的搜索。所以看起来像其目标会像好的启发式;更容易进行优化,但不同于外部客观。

为什么不同的内部和外部目标有关,如果内部优化器上得分颇高,外部客观呢?的相互作用,真正想要的是什么。即使我们得到价值规范完全正确,总是会有一些分配转变在训练集和部署。(见Amodei,et al。”"具体问题在人工智能的安全")。

分布变化将小在普通情况下可能产生很大的不同内部优化能力,可观察的细微差别和找出如何利用它为自己的目标。

实际上,甚至使用术语“分配转变”似乎是错误的嵌入式代理.这个世界并不先验知识。的模拟没有分配转变”会有一个的精确模型与你想优化相关的整个未来,和的能力运行它在培训。所以我们需要处理大规模”分配转变”.

我们可能还想优化的事情不是我们所想要的。明显的方式避免代理追求子目标成本的总体目标是子系统不是agentic。金宝博官方只是搜索很多方法让楼梯,不要让关心楼梯。问题是那强大的内部优化器优化外部系统不关心的事情,金宝博官方,内部优化器将agentic有收敛的动机。

此外,有内部优化的可能性变得意识到外部优化器,在这种情况下,它可能会显式地试图做好外目标函数,以保持,在寻找任何迹象表明它已经离开培训和可以停止假装。

这是我们看到的同样的故事敌对的 古德哈特:有一些agentic在搜索空间,回应我们选择代理的方式使我们的代理一个坏一个。

如果聪明的内部优化发展深层神经网络训练太假设,考虑到地球上生命的进化。进化可以看作是生殖健康达到极大。

(进化可以被认为是一个优化器对于许多事情,或任何优化器,但这并不重要。关键是如果一个代理要最大化的生殖健康,它可能使用的系统进化的样子。)金宝博官方

智能生物进化的内部优化。虽然智能生物的驱动肯定是与生殖健康、生物想要各种各样的东西。甚至有内部优化器来理解进化,有时甚至操纵它。强大和偏差内部优化似乎是一个真正的可能性,然后,至少有足够的处理能力。

似乎出现问题,因为你试图解决一个问题,你还不知道如何解决通过搜索了空间和希望”一个“可以解决它。

如果源问题是解决问题的大规模搜索,也许我们应该寻找不同的方式来解决问题。也许我们应该解决问题的辨识。但是如何解决问题,您还不知道如何解决比通过其他事情?吗?


让我们后退一步。

嵌入式世界模型是关于如何思考,作为嵌入式代理;;决策理论是如何采取行动。强大的代表团是关于建立值得信赖的继任者和帮手。子系统金宝博官方对齐是关于建筑一个代理的可信赖的部分.

嵌入式代理

问题是:

  • 我们不知道当我们思考环境.
  • 在某种程度上我们可以这样做,我们不知道如何思考行为的后果在这些环境中。
  • 即使我们能做到这一点,我们不知道如何思考我们想要.
  • 即使我们有这些问题,我们不知道如何可靠输出操作得到我们想要的!!

这是倒数第二篇斯科特Garrabrant和亚伯兰Demski嵌入式代理序列。结论:嵌入式的好奇心。