我们的2018年筹款活动正在进行中!!

强有力的代表团

γγ分析


自我提高

因为世界很大,代理人本身可能不足以实现其目标,包括思考能力。

因为代理是由零件制成的,它可以改进自身,变得更有能力。

改进可以采取多种形式:代理可以制作工具,代理人可以成为继任代理,或者经纪人可以随着时间学习和成长。然而,继任者或工具需要更有能力实现这一目标。

这就产生了一种特殊的委托/代理问题:

稳健委托中的三个委托代理问题

您有一个初始代理,以及接班人。初始代理将精确地决定后续代理的外观。接班人,然而,比初始代理更智能和强大。我们想知道如何让后续代理稳健地优化初始代理的目标。

问题不仅在于后续代理可能是恶意的。问题是,我们甚至不知道“不”意味着什么。

从两个角度来看,这个问题似乎都很难。

接班人

初始代理需要弄清楚比它更强大的东西有多可靠和可信,这看起来很难。但是后继代理人必须弄清楚在初始代理人甚至不能理解的情况下应该做什么,试着尊重接班人可以看到的目标不一致的,这看起来也很难。

起初,这看起来不像是一个基本问题“做决定“或““有模特“.但是,对于建立继任者问题是二元的查看。

对于嵌入式代理,未来的自己没有特权;这只是环境的另一部分。建立一个和你有共同目标的继任者之间没有很大的区别,而且要确保自己的目标随着时间的推移保持不变。

所以,虽然我说过“初始”和“继任者代理人,请记住,这不仅仅是关于人类目前面临的以继任者为目标的狭隘问题。这是关于作为代理人的基本问题,随着时间的推移,代理人会坚持和学习。

我们称之为问题群强有力的代表团.示例包括:


假设您正在播放赛尔游戏和一个蹒跚学步的孩子在一起。

CIRL是指合作逆向强化学习。CIRL背后的思想是定义机器人与人类协作意味着什么。机器人试图选择有用的动作,同时试图弄清楚人类想要什么。

学习价值

通常,我们从人的角度来考虑这个问题。但是现在考虑一下机器人面临的问题,他们试图帮助那些对宇宙非常困惑的人。想象一下试图帮助一个蹒跚学步的孩子优化他们的目标。

  • 从你的观点来看,这个蹒跚学步的孩子可能太不理智了,以至于不能被看成是优化任何事情。
  • 蹒跚学步的孩子可能有一个本体,其中它正在优化一些东西,但是你可以看到本体论没有意义。
  • 也许你注意到如果你用正确的方式提出问题,你可以让这个蹒跚学步的孩子看起来几乎什么都想要。

部分问题是“帮助”代理必须是更大的在某种意义上,为了更有能力;但这似乎意味着帮助“代理人不可能是帮手.

儿童和成人

例如,,无更新决策理论通过以下方法消除决策理论中的动态不一致性:而不是最大化你行动的预期效用鉴于你知道的,最大化预期效用反应观察结果,来自无知.

这可作为一种实现反射一致性的方式而具有吸引力,在计算复杂性方面,它创建了一个奇怪的情况:行动是类型\\A\和观察是类型\O\,对观察的反应是\O\到A\\\\\\\\\\\\\\\\\\\\\\\\\\\\我们期待着更小的自己就能做到这一点!!

这似乎很糟糕。

一种更清晰地表达问题的方法是:我们应该能够相信我们未来的自我正在运用其智慧来追求我们的目标。没有能够准确地预测我们未来的自我将会做什么。这个标准称为文根反射.

例如,你可以在游览新城市之前计划好行驶路线,但是你没有计划好你的步骤。你计划一些细节,相信你未来的自己可以找到剩下的。

由于贝叶斯决策理论假定逻辑全知.给定逻辑全知,假设代理人知道其未来的行为是合理的是假设的同义词代理人知道自己的未来将根据代理人能够预先预测的特定最优策略行事.

我们有一些有限的Vingean反射模型(参见)“用于自改性人工智能的耕作剂,以及洛比亚障碍“尤德科夫斯基和赫雷肖夫)。成功的方法必须在两个问题之间走一条窄线:

  • 洛比亚障碍因为信任自己推理的输出而信任自己未来的代理人是不一致的。
  • 拖延悖论:信任自己未来的代理人没有理智往往是一贯的,但不健全的,不可信的,而且会永远推迟任务,因为他们可以稍后再做。

迄今为止,Vingean反射结果仅适用于有限种类的决策过程,比如,以可接受性阈值为目标的满足者。所以还有很大的改进空间,为更有用的决策过程和更弱的假设获得平铺结果。

然而,除了平铺和Vingean反射,还有更多关于健壮委托的问题。

构造另一个代理时,而不是委托你未来的自己,你更直接地面对一个问题值加载.

这里的主要问题是:

这种错特化放大效应被称为古德哈特定律,以查尔斯·古德哈特的观察命名:一旦为了控制目的施加压力,任何观察到的统计规律将趋于崩溃。”“

当我们指定优化目标时,期望它与我们想要的高度相关是合理的,在某些情况下。不幸的是,然而,这并不意味着优化它将使我们更接近我们想要的-特别是在高水平的优化。


至少有四类古德哈特回归,因果关系的,极值,对抗性的。

回归古德哈特

回归古德哈特当代理和目标之间存在不完美的关联时发生。它通常被称为优化器诅咒,与均值回归相关。

给定(X)的(Y)的无偏估计不是我们选择最佳\(X\)时的(Y\)的无偏估计。从这个意义上说,当将(X)用作(Y)的代理用于优化目的时,我们可能会感到失望。

无偏估计

使用贝叶斯估计代替无偏估计,我们可以消除这种可预见的失望。

贝叶斯估计

这并不一定允许我们获得更好的值,因为我们仍然只有(X)的信息内容可供使用。然而,有时可能会。如果(Y)是正态分布,且方差(1\),和(X\是(Ypm 10\)具有偶数几率(+)或\\(-\),贝叶斯估计通过几乎完全消除噪声将给出更好的优化结果。

因果报应

因果报应当你观察代理和目标之间的相关性时发生,但当你介入增加代理时,你未能增加目标,因为观察到的相关性不是正确的因果关系。除因果关系外还取笑相关性是老生常谈。反事实的推理。

极端古德哈特

极端古德哈特,优化将您推到相关性存在的范围之外,分布中表现非常不同的部分。这是特别可怕的,因为它往往有相移。当优化能力较弱时,您可能根本无法观察到代理崩溃,但是一旦优化变得足够强大,您可以输入非常不同的域。

极值Goodhart类似于回归Goodhart,但是如果我们没有正确的模型,我们就不能用贝叶斯估计来校正它,否则,贝叶斯估计器本身似乎没有理由不受极端古德哈特的影响。

如果概率分布\(Q(y)\使得代理(X)平均仅是(Y)的有界坏近似,,量化通过\Q(y|xgeq c)\随机选择某个阈值\c\来避免极值Goodhart。如果我们选择一个高但不极端的阈值,我们可以希望选择行为非常不同的异常值的风险很小,而这个“Y”很可能很大。

量化器

这很有帮助,但是与回归Goodhart的Bayes估计不同,看起来并不一定是故事的结尾。也许我们可以做得更好。

敌方古德哈特

最后,有敌方古德哈特,其中,代理人通过智能地操纵代理,使代理变得更糟。这在低水平的优化中更难观察,两者都是因为对手在测试时间结束之前不想开始操纵,因为只有当优化足够强大时,来自系统自身优化的对手才会出现。金宝博官方

这些不同类型的Goodhart效应以非常不同的方式工作,而且,粗略地说,它们往往开始出现在连续的更高级别的优化能力上,所以要小心不要认为您已经征服了Goodhart定律,因为您已经解决了其中的一些问题。


除了反古德哈特措施之外,显然,能够精确地指定我们想要的内容会有所帮助。

不幸的是,这很难;那么,我们正在建立的人工智能金宝博官方系统可以帮助我们吗?更一般地说,后续代理能否帮助其前任解决这个问题?也许它能够利用它的智力优势找出我们想要的??

AIXI通过从环境中获取的奖励信号来学习该做什么。我们可以想象,当AIXI做他们喜欢的事情时,人类会按下一个按钮。

问题在于,AIXI会将其智能应用于控制奖励按钮的问题。这就是航向.

也许我们构建奖励按钮进入之内代理人,作为一个黑匣子,它根据正在发生的事情来发放奖励。这个盒子可以是智能子代理就其本身而言,它计算出人类想要给予什么奖励。这个盒子甚至可以通过惩罚旨在修改盒子的行为来保护自己。

最后,虽然,如果代理人了解情况,无论如何,它将被激励去采取控制。

在优化之间有一个关键的区别\(())在引号和直接优化\U()\中。如果代理人提出计划,试图实现高产量盒子,并将不确定性关于盒子的输出,然后它会想破解这个盒子。然而,如果通过实际框运行计划的预期结果,然后由当前方框评估黑客攻击方框的计划,所以它们看起来并不特别吸引人。

丹尼尔·杜威称第二类代理商为观测效用最大化器.(其他人将观察效用因子纳入了强化学习的更一般概念中。)

我发现非常有趣的是如何尝试各种方法来阻止RL代理进行定向,但是代理人继续反对它。然后,你转向观察效用代理,问题就消失了。

似乎间接方式本身就是问题。RL代理最大化盒子的输出;观察-效用代理最大化\U()\所以挑战在于创造稳定的指针,指向我们所重视的“概念”间接的用于指向不能直接用于优化的值。

观测-实用代理解决了经典的导航问题,但是,我们仍然存在指定(U()的问题。所以我们添加了一个间接的水平:我们代表了我们对(U()\的不确定性,努力学习。丹尼尔·杜威没有就如何做到这一点提供任何建议,但是CIRL就是一个例子。

不幸的是,航向问题可能以更糟糕的方式再次出现。例如,如果有一种药物改变了人类的偏好,只关心使用药物,CIRL代理人可能会非常积极地给人类提供这种药物,以使其工作更容易。这称为人为操纵问题。


我想从中吸取的教训是“利用腐败的奖励渠道加强学习“(由Tom Everitt等人撰写):设置反馈循环的方式有很大的不同。

他们画了以下图画:

标准解耦RL

  • 在标准RL中,关于状态值的反馈来自状态本身,所以腐败的国家可以自我强化.
  • 在解耦RL中,关于状态质量的反馈来自其他状态,即使某些反馈被破坏,也能够学习正确的值。

在某种意义上,挑战在于要原创,在反馈回路中的小代理以正确的方式。然而,前面提到的无更新推理的问题使这个问题变得困难;原来的代理人知道得不够。

解决这个问题的一种方法是智能放大试着把原来的代理变成一个具有相同值的更有能力的代理,而不是从头创建后续代理并尝试正确加载值。

例如,Paul Christiano提出了一种在大树中多次模拟小代理的方法,可以通过把问题分成几个部分.

然而,对于小代理来说,这仍然是相当苛刻的:它不仅需要知道如何将问题分解成更容易处理的部分;它还需要知道如何做到这一点,而不会引起恶意的子计算。

例如,由于小代理可以使用自身的副本来获得大量的计算能力,它可以很容易地尝试使用暴力搜寻最终违反古德哈特定律的解决方案。

这个问题是下一节的主题:子系统金宝博官方对准.


这是阿布拉姆·德姆斯基和斯科特·加拉布兰特的嵌入式代理序列。继续到下一部分.