新论文:“先进机器学习系统的校准”金宝博官方

||文件

先进机器学习系统的校准金宝博官方MIRI的研究金宝博娱乐至今一直专注于问题,我们奠定了我们2014年末研究议程金宝博娱乐,特别是关于,反思的决策理论代理人嵌入到他们的环境中.我们的研金宝博娱乐究团队现已发展很大,而且我们已经对这个议程实质性进展,其中包括逻辑不确定性的重大突破,我们将在未来几周内宣布。

今天,我们宣布了新的研究议程,“金宝博娱乐先进机器学习系统的校准金宝博官方“。展望未来,对我们的时间的一半将在这个新的议程中度过,而另一半则用在我们以前的议程。摘要如下:

我们调查的八个研究领域围绕一个问金宝博娱乐题组织:作为学习系统变得越来越智能和自主性,什么样的设计原则最能确保他们的行为与经营者的利益一致?金宝博官方我们专注于两大技术障碍AI对齐:当目标函数不与完美排队指定正确的目标函数的挑战,并设计出避免意想不到的后果,甚至在情况下,不良行为的AI系统的挑战金宝博官方设计师的意图。

本研究计画探讨的开放性问题包括:如何训练强化学习者,使其采取更金宝博娱乐适合由智慧监督人进行有意义评估的行动?什么样的目标函数能激励一个系统“没有过大的影响”或“没有太多的副作用”?我们讨论这些问题,相关的工作,以及未来研究的潜在方向,目的是突出机器学习中的相关研究课题,这些课题在今天看来是可行的。金宝博官方

通过杰西卡泰勒,埃利泽·尤多科斯基,帕特里克LaVictoire和安德鲁玛琳合着,我们的新报告讨论了研究八个新线(金宝博娱乐之前在此总结). 下面,我将解释这些问题背后的基本原理,以及它们如何与我们的旧研究议程和新研究议程联系在一起。”金宝博娱乐在AI安全的具体问题”议程,达里奥Amodei和谷歌脑克里斯·奥拉带头。

通过降低自主提高安全性

前三个研究领域集中在有关问题金宝博娱乐基于行为的代理,基于用户短期工具偏好金宝博官方的概念系统:

一。感性歧义识别:我们如何培训ML系统,以检测并通知我们测试金宝博官方数据分类严重不足的情况?

2。健壮的仿人:我们如何设计和训练ML系统,以有效地模仿从事复杂和困难任务的人类金宝博官方?

三。知情监督:我们如何训练强化学习系统,以采取行动,帮助智能监管者(如人类)准确评估系统性能?金宝博官方

这三个问题涉及到我们在能力/自主性和安全性之间进行权衡的不同方法。在一个极端情况下,一个完全自主、能力超人的系统将使建立任何强有力的安全保障变得特别困难。我们可以通过建立仍然相当智能和自主的系统,在一定程度上降低风险,但如果运营商的行为特别高风险,我们会暂停咨询。歧义识别是一种充实哪些场景是“高风险”的方法:系统迄今为止的经验金宝博官方对它试图学习的某些事实或人类价值没有影响。

在另一个极端,我们可以考虑不比用户更聪明的ML系统,并采取金宝博官方没有他们的用户会做什么,或用户会告诉他们做什么.如果我们能正确地设计系统时做其认为可信的,知情的人会做,我金宝博官方们就可以交易掉一些,以换取较轻的故障模式先进ML系统的潜在好处。

这两个极端,人类模仿和(主要是)自主目标追求,是有用的研究对象,因为它们有助于简化和分解问题的关键部分。然而,在实际应用中,歧义识别本身可能是一种过于温和的限制,严格的人工模仿可能无法有效地实现。知情的监督考虑更温和的方法来保持人的循环:设计更透明的ML系统,帮助操作员理解所选操作背后的原因。金宝博官方

在不降低自主性的情况下提高安全性

无论我们通过将人类纳入人工智能系统的决策中来购买什么样的保障,我们也将希望在监管不可行的情况下提高系统的可金宝博官方靠性。我们的其他五个问题侧重于提高自主追求现实世界目标的系统的可靠性和容错性,首先是以稳健和可靠的方式指定这些目标:

四。普及环保目标:我们怎样才能创造出一种系统,它能够有力金宝博官方地追求根据环境状况而不是直接根据感官数据来定义的目标?

5。保守观念:如何训练分类器开发排除高度非典型示例和边缘案例的有用概念?

6。影响的措施:什么样的正则化激励系统以最小的副作用追求其目标?金宝博官方

7。温和优化:我们怎样才能设计出“不费吹灰之力”地追金宝博官方求目标的系统——在目标已经很好地实现时停止,而不是花费更多的资源来寻找实现绝对最优预期分数的方法?

8。避免激励工具:我们如何设计和培训系统,使其严重缺乏操纵和欺骗其运营商、争金宝博官方夺稀缺资源等的默认激励。?

尽管歧义识别学习者被设计来预测他们可能遇到边缘情况的潜在方式,并在这些情况下遵从人类操作,但保守学习者被设计来在边缘情况下安全地犯错。如果一个烹饪机器人注意到冰箱里的食物不足,它应该试着煮猫吗?模棱两可的识别方法说,要注意什么时候回答“猫是食物吗?“还不清楚,请停下来咨询人类操作员;保守的概念方法是假设猫在不确定的情况下不是食物,因为烹饪机器人低估食物的数量比高估食物更安全。然而,人们如何将这种推理形式化仍不清楚。

影响的措施提供了另一种途径限制AI事故的潜在范围。如果我们可以定义的一些措施“的影响,”我们可以设计,可以从低影响的人直观地辨别高影响力的行动,一般选择低冲击选项系统。金宝博官方

或者,我们可以设计一些“温和”的系统,而不是尽可能地设计出低影响的系统,金宝博官方这些系统只是不努力去做任何事情。限制一个系统将投入其决策的资源(通过温和的优化)与限制一个系统将决定引起多大的变化(通过影响措施)是不同的;两者都是探索不足的风险降低方法。

最后,我们将探讨在“避免工具性激励”的保护伞范畴下,防止违约制度激励对经营者不利的各种不同方法。我们同时追求所有这些研究方向的希望是,结合这些特征的系统将比实现金宝博官方其中任何一个特征的系统允许更高的置信度。这种方法也起到了对冲的作用,以防这些问题中的一些在实践中被证明是不可解决的,并允许在一个问题上行之有效的想法被重新应用到其他问题上。金宝博娱乐

与其他研究议程的联系金宝博娱乐

我们的新的技术议程,我们的2014议程,而“在AI安全的具体问题“在将人工智能系统与人类利益相结合的问题上采取不同的方法,尽管他们提出的研究方向之间有相当多的重叠。金宝博娱乐金宝博官方

我们已经改变了我们的议程2014的名称为“机器智能与人类利益协调的Agent基础“(从“将超智能与人类利益结合起来”)来帮助强调它与我们的新议程是不同的。因为我们讨论的原因预告在“高级机器学习系统的校准”中,我们的新议程旨在帮助更接近高级人工智能的场景,并且相对直金宝博官方接地从当代人工智能技术中派生出来,而我们的代理基础议程对于何时以及如何开发高级人工智能更不可知。

就像我们最近写的我们认为,发展高可靠的推理和决策“可以使人们有可能获取有关高级人工智能系统的行为非常有力保障的基本形式理论 - 比许多强目前认为是可能的,而当时最成功的金宝博官方机器学习技术往往知之甚少“。如果没有这样的理论,人工智能定位将是一个更加艰巨的任务。

“人工智能安全中的具体问题”的作者写道,他们自己的重点“是对现代机器学习系统中的实际安全问题的实证研究,我们相信这可能在短期和长期的各种潜在风险中非常有用。”ML议程(或密切相关的议程)的调整,但更多地指向在现有工作的基础上构建和在当前系统中查找应用程序。金宝博官方

当代理基础议程可以说遵循的原则“先从最不好理解的长期AI的安全问题,因为这些似乎有可能需要最多的工作,是最有可能严重改变我们对整个问题空间的理解”的具体问题议程遵循这样的原则‘今天是最适用的系统长期AI安全问题入手,因为这些问题是最容易由AI研究界连接到现有的工作’。金宝博娱乐金宝博官方

泰勒等人的新的议程较少集中在现今和近未来的系统不是“人工智能安全的具体问题,”但更ML-面向比代理基础议程。金宝博官方这个图表可以帮助映射一些主题代理基础议程(明文),具体问题议程之间的对应关系(斜体),以及ML议程的对齐(胆大) 讨论:

与高可靠性相关的工作

  • 现实世界模型~普及环保目标~避免黑客奖励
    • 归化归纳法
    • 本体鉴定
  • 决策理论
  • 逻辑不确定性
  • Vingean反思

有关的工作容错

  • 感性识别歧义=模糊识别~对分布变化的稳健性
  • 健壮的仿人
  • 知情监督~可扩展的监督
  • 保守的概念
  • 影响措施=家庭生活~避免副作用
  • 轻度优化
  • 避免工具性激励
  • 安全勘探

“~”表示相似性和对应性(有时非常粗糙),而“=”表示同一概念的不同名称。

例如,“现实世界模型”和“可概括环境目标”都旨在使像AIXI这样的强化学习形式的环境和目标表示更加健壮,并且都可以看作是避免奖励黑客攻击的特殊策略。我们在代理基金会议程下的工作主要集中在没有明确代理/环境边界的环境中人工智能系统的正式模型(归化归纳法),虽然我们在新议程下的工作将更多地集中于世界模型的构建,这些模型承认目标的具体化是环境的,而不仅仅是感性的(本体识别)。金宝博官方

有关这些研究主题之间关系的更充分讨论,请参见金宝博娱乐泰勒等人的论文.


注册获取新的MIRI技术结果的更新

每次发布新的技术论文时都会收到通知。