MIRI的研究指南金宝博娱乐

,内特苏亚雷斯



2019三月更新:这项研究指南金宝博娱乐是2015年以来我们的新建议只是轻轻更新的谁想要工作的人AI对齐的问题是:

  • 如果你有一个计算机科学或软件工程背景当前位置申请参加我们的新人工智能风险工作坊作为工作在MIRI工程师。为此,你并不需要我们研究任何事先熟悉。金宝博娱乐

    • 如果你不确定自己是否适合AI风险研讨会或工程师职位,给我们发邮件我们可以讨论它是否合理。

    • 你可以在我们的网站上找到更多关于我们工程项目的信息2018策略更新

  • 如果你想了解更多关于我们正在处理的问题(不管你的答案上面的):请参阅“嵌入式代理”的介绍,我们代理的基础研究,看看我们金宝博娱乐对准研究领域指南金宝博娱乐浏览有关如何开始学习人工智能安全的一般建议。

    • 在查看了这两个资源之后,您可以使用“嵌入式机构”和本页中的链接和参考来了解更多您想深入研究的主题。如果你想专注于一个特定的问题集,我们建议Scott Garrabrant定点练习。”正如Scott注意事项:

      有时人们问我,为了进入代理基础,他们应该学习什么数学。我的第一个答案是,我发现每个子领域的入门课程都很有用,但我发现后面的课程就没那么有用了。我的第二个答案是学习足够的数学来理解所有不动点定理。

      这两个答案其实很相似。不动点定理跨越所有跨数学,是中央考虑代理基金会(我的方式)。

    • 如果你想要人们合作和讨论,我们建议开始或加入aMIRIx集团,发布LessWrong,申请我们的计算机科学家的人工智能风险车间,或以其他方式让我们知道你在那里。

如果人类要发展具有积极的影响比人类更聪明,人工智能,我们必须满足三个严峻的挑战。首先,我们必须设计出更聪明,比人系统金宝博官方高度可靠,以便我们能够证明系统将实现指定的目标或偏好的信心。金宝博官方第二,设计必须是不变性,使系统在面对不可避免的人为金宝博官方错误时能够进行在线修改和修正。第三,系统必须真正学习金宝博官方有益的目标或偏好。

MIRI目前的研究方案的重点是金宝博娱乐了解如何符合这些原则的挑战。有可靠的理由是,我们还没有,即使在理论理解的方面;有有限理性,我们不能然而,即使在简单的设置解决的问题。我们的研究着重于简化设置寻找解决方案,作为第一步。因此,我们的现代研究看上去更像比软件工程金宝博娱乐或实际的机器学习纯数学。

本指南简要概述我们的研究重点,并提供资源,这将帮助你在每个学科领域金宝博娱乐的前沿。本指南并非意在证明这些研究课题;金宝博娱乐我们做的另一个动机,请参考文章“MIRI的方法”,或给我们技术议程支持文件

注(SEP 2016):本研究指南是基于我们金宝博娱乐的周围代理基础议程。截至2016年,我们也有一个机器学习重点议程。请参阅该文档有关的研究方向,我们认为是有希望的,并且不包括在本指南的详细信息。金宝博娱乐


如何使用本指南

本指南是为那些对相关领域还不是很精通的有抱负的研究者准备的。金宝博娱乐如果你已经是一个人工智能专业人士或经验丰富的数学家,考虑跳到我们的现有出版物代替。(我们的188 bet下载 为起点的罚款。)本指南是面向如果他们想成为MIRI研究人员在未来谁是想知道学习的学生,并向着谁想要起床的速度对我们的工作等领域的专业人士。金宝博娱乐

金宝博娱乐研究人员通常最终通过两个路径之一加入我们的团队。首先是参加一个MIRI车间,亲自与我们建立关系。您可以使用这种形式申请参加研究工作坊。金宝博娱乐需要注意的是,研讨会之间的时间间隔相当长,而且它们的容量有限。

第二种方法是独立地在我们的研究议程上取得一些进展,并让我们知道你们的结果。金宝博娱乐您可以使用我们的在线表格申请帮助或输入你的工作,但最快的方式是阅读文章智能代理基金会论坛(IAFF),注意人们正在处理的开放问题,并解决一个。然后你可以发布你的结果作为a链接在论坛上。

(2019三月更新少错和AI对齐论坛现在我们去到场地的AI对齐问题,并取代IAFF公众讨论。看到这个职位的其他更新本节建议的顶部。)

调研座谈会的主要目的是为研究人员谁已经是在同一个页面,金宝博娱乐讨论糙米部分结果上。因此,在论坛上的帖子可以说是相当不透明。这项研究指金宝博娱乐南可以帮助你加快速度上的IAFF正在讨论的开放性问题。它还可以帮助您制定必要的资格车间的技能,或者找到其他机构的AI比对开放问题的方式来工作。

在尝试这种风格的研究之前,如概率论,理解这些基础学科是很重要的,本指南从这些基础学科的建议开始。金宝博娱乐在那之后,它被分成一系列的主题区域,带有一些论文链接,可以让你了解该领域的最新技术。

这不是一个直线导轨:如果你想成为一个MIRI研究者,我建议先确保你了解的基础知识,然后选择一个题目说的利益,你和进金宝博娱乐入深度在这一领域。一旦你理解了一个主题好,你就可以准备尝试在IAFF该主题领域作出贡献。

对于本指南中的所有材料,请不要为了磨光而磨光。如果你已经知道了材料,跳过。如果一个活跃的研究领域没能引起你的兴趣,那金宝博娱乐就换一个不同的。如果你不喜欢推荐的课本,找一本更好的,或者干脆跳过。这个指南应该作为一个工具来找出你可以在哪些方面做出贡献,而不是成为实现目标的障碍。


最基本的

在直接进入我们正在进行的研究课题之前,熟练掌握一些基本的数学概念是很重要的。金宝博娱乐对计算、逻辑和概率论的金宝博娱乐基本理解为我们所有的研究领域提供了良好的服务。下面是一些帮助你开始学习的资源。

你不需要在列出的顺序本节进行到阅读的书籍。拿起什么是有趣的,不要犹豫,跳过来回的研究领域和基本需要之间。金宝博娱乐

集理论

大多数现代数学形式化在集合论,这里所列的教材和论文也不例外。这使得集合论一个伟大的地方开始。



队章

可计算性和逻辑

可计算性理论(由角化所带来的限制)为基础,以了解什么,不能用机器完成。



1 - 4章

概率论

概率论是理解理性代理的核心。熟悉不确定性下的推理在我们所有活跃的研究领域中都是至关重要的。金宝博娱乐



1 - 5章

概率推理

这本书将帮助充实理解如何推断可以做使用概率世界模型。


统计数据

用流利统计建模将是促进我们有益的“为高级机器学习对齐“研金宝博娱乐究议程。先熟悉一下概率推理是一个好主意。


机器学习

要在实践中熟悉机器学习,我们强烈推荐安德鲁Ng的Coursera课程(演讲笔记在这里)。对于ML的更多理论介绍,请尝试了解机器学习


人工智能

虽然我们大多数的工作在性质上是理论,人工智能的现代领域的知识,重要的是把这个工作环境。

同样重要的是要了解VNM理性的概念,我建议借鉴维基百科的文章但也可以从原来的书。冯·诺伊曼和摩根斯坦证明了任何服从几个简单一致性公理的个体都具有可由效用函数描述的偏好。虽然有些人认为,为了构建可靠的智能代理,我们最终可能需要放弃VNM的合理性,但VNM框架仍然是我们拥有的最有表现力的框架,用于描述任意强大的代理的行为。(例如,请参阅正交性的论文器乐收敛论文从博斯特罗姆的“该只超意志。“)VNM理性的概念贯穿我们所有活跃的研究领域。金宝博娱乐



现实世界模型

如果你的“比人更聪明”的系统不可靠,那么将有益目标形式化对你没有好处。金宝博官方好的推理有些方面我们甚至还不能理解,即使是在原则上。通过建立实际的系统,使用似乎有效的算法,即使它们有效的原因还没有被很好地理解,也很有可能获得洞察力:通常,理论理解紧随实金宝博官方际应用之后。然而,在设计有潜力成为超级智能的系统时,我们认为这种方法是轻率的:在尝试创建实际的超级智能系统之前,如果我们手头有一般智金宝博官方能的理论,我们会更安全。

由于这个原因,我们许多活跃的研究课题都集中在一般智力的某些方面,我们甚至金宝博娱乐在原则上都不知道如何解决这些问题。例如,考虑以下问题:

我有一个计算机程序,被称为“宇宙”。在宇宙中的一个功能是不明确的。你的任务就是给我提供了相应类型的计算机程序来完成我的宇宙计划。然后,我将运行我的宇宙计划。我的目标是根据得分您的代理人以及它如何得知原来宇宙程序是什么。

我怎么能这么做呢?索罗门诺夫的归纳推理理论为理论解决方案提供了一些启示:它描述了一种从观察中做出理想预测的方法,但仅适用于预测者生活在环境之外的情况。Solomonoff归纳已经产生了许多有用的工具来思考归纳推理(包括Kolmogorov复杂性、普遍先验和AIXI),但在agent是宇宙的子过程,由宇宙计算的情况下,问题显然变得更加困难。

在代理被嵌入的环境中的情况下,感应问题变得明朗:怎样才算是“学习宇宙计划”?反对什么分布在环境应该代理人进行评分?何谓理想的感应在“代理”和“环境”之间的边界变得模糊的情况?这些都是问题,“归化感应”。

  1. 苏亚雷斯’”形式化现实世界模型的两个问题进一步激发了归化归纳法的问题,使之与一般智力理论的构建相关。

  2. Altair的“Solomonoff感应的一个直观的解释索罗门诺夫的归纳推理理论是理解归化归纳法开放问题的重要背景知识。

  3. Bensinger的“归化感应”(系列)探讨归感应问题的更多细节。

解决归化问题需要更好地理解现实世界模型:什么是“可能的现实”?一个理想的药剂会使用什么样的环境先验?对这些问题的回答不仅要有良好的推理,还必须考虑到人类目标的世界模型。

例如,在Solomonoff诱导(和胡特的艾希),图灵机被用于将环境建模。假装我们唯一值是钻石(碳原子共价结合其他四个碳原子)。现在,说我给你一个图灵机。你能告诉我有多少钻石内?

为了设计一个追求其世界模型中指定的目标的代理,代理必须有某种方式在其世界模型(图灵机)中识别我们的目标(碳原子)的本体。这个“本体识别”问题在“形式化现实世界模型的两个问题”(上联)中进行了讨论,首先由De Blanc提出:

  1. 德布兰克的“人工主体价值体系的本体论危机金宝博官方问题是如何使一个主体的目标在本体论的变化中变得稳健。如果代理从物理的原子模型开始(其中碳原子是本体论基础),那么这可能并不困难。但是当代理建立一个核物理模型(原子是由中子和质子构成的)时会发生什么呢?如果“碳识别器”被硬编码,这个代理可能无法在这个新的世界模型中识别出任何碳,并可能开始奇怪地行动(寻找隐藏的“真正的碳”)。如何设计agent,使其能够成功地识别“六质子原子”和“碳原子”,以应对本体论危机?


莱格和胡特的“通用智能:机器智能的定义”描述艾希,在设置一个普遍智能代理,其中所述试剂是分开的环境中,和一个‘用来对在该设定的各种代理程序的智能度量得分’。胡特的艾希和莱格的得分指标是在精神上我们是响应归感应和本体识别问题寻找非常相似。两个不同之处在于艾希生活在哪里剂和环境是分离的,而归感应一个宇宙要求,其中所述试剂被嵌入在环境内的溶液中,而我们的愿望,可优化在会奖励指定的溶液艾希最大化在观测来指定报酬外界的条款。

你可以在Hutter的书中了解更多关于AIXI的信息普遍的人工智能虽然阅读莱格的论文(上面链接)可能足以满足我们的目的。


决策理论

假设我给你以下内容:(1)一个描述宇宙的计算机程序;(2)描述代理的计算机程序;(三)代理人可以采取的一系列行动;(4)在宇宙历史状态中指定的一组偏好。我的任务是,根据这些偏好,确定agent可以采取的最佳行动。例如,您的输入可能是:

Agent(): worldmodel = {Lo: 1, Hi: 2, Med: 3} return worldmodel[Hi] territory = {One: Lo, Two: Med, Three: Hi} return territory[Agent()]
DEF代理():worldmodel = {罗:一,HI:二,医学:三}返回worldmodel [高]
行动= {一,二,三}
你好> Med > Lo

(注意,此时的试剂镶嵌在环境中)。这是另一个问题,我们不知道该怎么回答,甚至在原则。这似乎很简单:只要在迭代每一个动作,弄清楚哪些成果剂会得到,如果它采取了上述行动,然后挑动作,导致了最好的结果。但作为事实上,在这个思想实验,代理是一个确定性的计算机程序的确定性子:正好有一个动作,代理将要输出,并询问是否有什么“会发生”一的确定性部分deterministic program did something that it doesn’t do is ill-defined.

为了评估如果行为人采取了不同的行动“将会发生”什么,必须构建一个“反事实环境”(即行为人做了他没有做的事情)。令人满意的反事实推理理论还不存在。我们还不知道如何确定一个嵌入在其环境中的agent可用的最佳行动,即使是在理论上,即使是在对宇宙和我们的偏好有充分了解,并且有无限的计算能力的情况下。

解决这个问题,需要更好地了解反推理;这是决策理论的领域。

决策理论

彼得森的教科书解释粗线条的规范性决策理论的领域。为了更快的调查显示,随着更加注重Newcomblike问题,请参阅Muehlhauser的“决策理论常见问题解答。”


博弈理论

在决策理论的许多有待解决的问题涉及多代理设置。我听说过Tadelis’教材好东西,但没有看过自己。您还可能有运气与斯科特亚历山大“博弈论概论”上LessWrong。



1 - 5章
(+ 6-9如果热心)

只是逻辑

多主体设置的玩具模型可以在这样一种环境中进行研究,在这种环境中,主体将它们的行为建立在它们能够证明同一环境中其他主体的行为的基础上。我们目前的玩具模型大量使用可证明逻辑。

现有的反事实的推理方法在短期内都是令人不满意的(在这个意义上他们系统地实现贫困结果在一些问题上好的结果是可能的)和长期(在这个意义上使用坏反设事实将变为无效来代理推理,根据这些破碎的反设事实,认为他们不应该解决他们所有的缺陷)。金宝博官方我的演讲”为什么不是你有钱吗?简要地谈到这两点。要了解更多,我建议以下资源:

  1. 苏亚雷斯和Fallenstein的“对理想化的决策理论作为一个总体概述,并进一步激发决策理论的问题,作为相关的MIRI的研究计划。金宝博娱乐本文讨论了两种现代决策理论的不足之处,并讨论了决策理论中的一些新见解,指出了进行反事实推理的新方法。

如果“走向理想化的决策理论”移动太快,这一系列博客文章可能是一个更好的地方开始:

  1. Yudkowsky的“真正的囚徒困境解释了为什么合作并不一定是‘正确的’或‘好的’选择。

  2. 苏亚雷斯’”因果决策理论并不令人满意”用囚徒困境来说明决策算法之间无因果关系的重要性。

  3. Yudkowsky的“纽科姆的问题和理性的遗憾他认为,应该把重点放在那些‘会赢’的决策理论上,而不仅仅是那些直觉上看起来合理的决策理论。苏亚雷斯’”Newcomblike问题介绍涵盖了类似的内容。

  4. 苏亚雷斯’”Newcomblike问题是常态他指出,人类行为主体在日常基础上,可能会建立起彼此决策标准的模型。

MIRI的研究金宝博娱乐导致了“无更新决策理论”(UDT)的发展,这是一种新的决策理论,解决了上面讨论的许多缺点。

  1. 迈克的“预测困境中的问题阶级优势总结了UDT对其他已知决策理论的优势,包括永恒决策理论(TDT),另一个主导CDT和EDT的理论。

  2. Fallenstein的“事先通过逻辑语句UDT的模型与一个具体的提供了一个概率的形式化。

但是,UDT并不是一个解决方案,它自身也有很多缺点,下面讨论一下:

  1. Slepnev的“UDT中自我实现的伪证明的一个例子解释了UDT如何由于伪证明而获得次优结果。

  2. 本森 - Tilsen的“已知搜索顺序的UDT”是一个有些不能令人满意的解决方案。它包含UDT的已知证明搜索顺序形式化和演示使用,以避免虚假证明被称为“打鸡与宇宙”的技术的必要性。

为了研究多主体设置,Patrick LaVictoire开发了一个模态主体框架,这也允许我们使用可证明逻辑在决策理论领域取得一些新的进展:

  1. Barasz等人的"在囚徒困境强大的合作“允许我们考虑代理人,他们只根据他们所能做的来决定是否合作证明关于对方的行为。这可以防止无限倒退;事实上,其中两个行为只是按照他们能证明对其他行为主体的行为,可以在二次使用时间可证明从逻辑结果确定。


UDT是由Wei Dai和Vladimir Slepnev等人开发的。戴笠的”迈向一个新的决策理论”出台的理念,Slepnev的“UDT的模型与甲骨文停止提供了早期的第一个正式定义。Slepnev还描述了UDT的一个奇怪的问题,其中似乎代理因为智力较低而被奖励,在"代理会模拟预测”。

这些博客文章是有历史意义的,但几乎所有的内容都是“走向理想化的决策理论”(见上图)。


逻辑不确定性

想象一个黑盒子,有一个输入滑道和两个输出滑道。一个球可以放入输入滑槽,它会从两个输出滑槽中的一个出来。在黑盒子里面是一个Rube Goldberg机器,它把球从输入滑道带到一个输出滑道。

A perfect probabilistic reasoner who doesn’t know which Rube Goldberg machine is in the box doesn’t know how the box will behave, but if they could figure out which machine is inside the box, then they would know which chute would take the ball. This reasoner is环境不确定

一个现实的推理者可能知道盒子里是哪台机器,也可能确切知道机器是如何工作的,但可能缺乏推理能力,无法知道机器会在哪里丢球。这种推理是逻辑上不确定。

概率论假定逻辑全知;它假定推理知道他们所知道的事情一切后果。在现实中,有界的推理在逻辑上并不是无所不知的:我们可以准确地知道哪台机器盒子工具和精确机器如何工作,只是没有地推断出那球出来的时候。我们之所以在逻辑的不确定性。

逻辑不确定性下的正式推理理论还不存在。当涉及到构建高度可靠的一般智能系统时,获得这种理解是极其重要的:每当一个代理推断复杂系统、计算机程序或其他代理的行为时,它必须在至少有一点逻辑不确定性的情况下运行。金宝博官方

要了解艺术的状态,概率论的一个坚实的理解是必须的;考虑增强的前几章杰恩斯费勒,章节1,5,6,和9,然后研究了下列文件:

  1. 苏亚雷斯和Fallenstein的“逻辑不确定性下的推理问题提供了一般的介绍,解释了逻辑不确定性的领域,并激励其相关性MIRI的研究计划。金宝博娱乐

  2. Gaifman的“在第一阶结石有关措施很多年前就考虑过这个问题。Gaifman主要关注的是一个相关的子问题,即对一个正式系统的不同模型分配概率(假设一旦模型已知,该模型的所有结果也已知)。金宝博官方我们现在尝试这种方法扩大到一个更完整的概念逻辑的不确定性(推理程序可以知道模型是什么但不知道模型)的影响,但通过Gaifman仍是有用的历史背景和理解周围的困难逻辑的不确定性。

  3. 胡特等人的“在一个表达逻辑上的句子的概率”主要是着眼于逻辑的不确定性假设接入无限的计算能力(和制止预言的许多层面)的问题。了解胡特的做法(什么可以用无限的计算能力来完成)有助于充实我们的难题在于,其中的理解。

  4. Demski的“合理的先验概率"提供可计算近似的逻辑先验。继Demski之后,我们的工作主要集中于在逻辑句子上创建一个可近似的先验概率分布,因为提炼和近似逻辑先验的行为与一般逻辑不确定性下的推理行为非常相似。

  5. global的“非全知,概率推理和元数学”主要是这个方向。本文提供有关逻辑先验的产生一些早期的实际考虑,并强调一些有待解决的问题。


有关这个问题的更多历史研究,见盖夫曼的丰富语言的可能性……”和“用有限资源进行推理,并为算术语句分配概率。”


Vingean反射

人工智能问题的独特之处在于,一个足够先进的系统将能够比它的人类程序员做更高质量的科学和工程。金宝博官方一个高级系统的许多可能的危险和好处来自它引导自己达到更高水平能力的潜力,可能导致an金宝博官方智能爆炸

如果代理实现通过递归自我完善超级智能,则所得系统的影响完全依赖于初始系统原因的可靠地大约是比自己更智能代理的能力。金宝博官方什么样的推理方法可以为了一个系统的使用,以证明在一个更智能系统的行为非常高的信金宝博官方心?我们称这种推理“Vingean反射”的,弗诺·文奇后(1993年他指出,一般来说,不可能精确地预测比推理者更聪明的行为主体的行为。

执行Vingean反射的推理者必须进行推理抽象关于更聪明的特工。这几乎肯定需要某种形式的高度自信的逻辑不确定推理,但是代替逻辑不确定的工作理论,关于证明的推理(使用形式逻辑)是研究抽象推理的最好的可用形式主义。因此,对文格反思的现代研究需要形式逻辑的背景:

一阶逻辑

MIRI对学习自我调节剂存在的玩具模型主要是基于这样的逻辑。了解一阶逻辑的细微差别是使用我们的研究能够做到接近的类似系统的信心正规系统开发的工具是至关重要的。金宝博官方

我们通过构建的,其能够获得某种形式的高度相似的系统信心代理商玩具模型研究Vingean反射。金宝博官方为了获得切削刃,阅读下列材料:

  1. Fallenstein和苏亚雷斯“Vingean反思:可靠的推理自我改进剂”介绍Vingean反思的领域,并促使其对MIRI的研究计划连接。金宝博娱乐

  2. Yudkowsky的“在拖延悖论和”(自信托‘不健全是来自上也需要满意的解决方案,以走Löbian障碍物之间的细线的问题太少而产生)进入更多细节’自我信任。

  3. Christiano等人的"在概率逻辑真理可定义”描述了早期尝试建立一个正式的系统,可以推理本身,同时避免自我参照悖论。金宝博官方它成功,但最终被证明是不健全的。我的演练因为这篇文章可能有助于把它放在更多的背景中。

  4. Fallenstein和苏亚雷斯“自我改进时空内嵌智能中的自我参照问题描述了我们的简单建议者-验证者模型,用于研究产生略微改进版本的代理,或“tile”自身。本文演示了一个玩具场景,在这个场景中,声音代理可以成功地平铺到其他类似代理(例如,获得高度信任)。


Yudkowsky和Herreshoff 's "自修改AI的平铺代理”是一个年纪大了,更加起伏介绍Vingean反射可以通过使用更容易我的工作演练

如果你对这个研究主题感到兴奋,这里有许多其他相关的技术报告金宝博娱乐。不幸的是,他们中的大多数人都没有很好地解释自己的动机,也没有被置于更大的背景下。

Fallenstein的“拖延的概率逻辑这说明了Christiano等人的概率推理系统是如何不健全的,并且容易受到拖延悖论的影响。金宝博官方Yudkowsky的“分布允许平铺......”需要向概率平铺设置一些早期步骤。

Fallenstein的“减少数学的力量......”描述参数多态,部分解决了Löbian障碍之一不满意财产。苏亚雷斯’”Fallenstein的怪物描述了一个避免了上述问题的hackish正式系统。金宝博官方它还展示了一种限制agent的目标谓词的机制,该机制也可被参数多态用于创建一个比tiling agents论文中探索的约束更少的PP版本。Fallenstein的“一个无限下降的合理理论序列描述了一个更优雅的Lobian障碍的局部解决方案,它现在是我们偏爱的局部解决方案之一。

对递归序数的理解为理解这些结果提供了一个有用的背景,可以通过阅读弗兰岑的超限级数:再看一下完整性。


可订正

随着人工智能系统在智力和能力的成长,他们的一些可用的选项金宝博官方可以让他们通过自己的程序员抵制干预。我们称之为AI系统“驯服的”金宝博官方,如果它有什么它的创造者视为纠正干预,尽管理性的代理人默认激励抵制试图将其关闭或修改自己的喜好合作。

这一领域的研究基本上是全新的金宝博娱乐,所以所有需要为了得到最高速度是读报纸或两个:

  1. 苏亚雷斯等人的"可订正”引入外地在逃,有几个未解决的问题一起。

  2. 阿姆斯特朗的“通过适当的冷漠值学习讨论了一种可能的方法,使代理之间的效用函数,他们最大化,这是一个小步骤,代理允许自己修改。

关于可订正我们目前的工作主要集中在一个小的子问题被称为“关闭问题”:如何构造一个代理关闭的关闭按钮,并没有激励引起或阻止按的按钮吗?在这个子问题中,我们目前关注的是效用无关问题:你如何构造一个代理,允许你切换它最大化的效用函数,而不给它激励去影响是否切换发生?即使我们对实用程序无关问题有一个令人满意的解决方案,这也不会对关闭问题产生令人满意的解决方案,因为似乎仍然很难以不受错误实例化影响的方式充分地指定“关闭行为”。斯图亚特·阿姆斯特朗写了几个博客文章的规范“减少影响”世界:

  1. 驯化减少了对AIs的影响
  2. 减少影响AI:没有后台通道

这些第一次尝试还没有一个完整的解决方案,但他们应该让你加快速度目前我们对问题的理解。


早期的可替代性研究可以在网络论坛上找到更少的错误。最相关的结果在上述报纸抓获。其中一个比较有趣的是“蛋糕或死亡”的一个例子‘动机值选择’的问题。在这个例子中,与有关从避免降低其不确定性信息其效用函数收益的不确定度的试剂。

阿姆斯特朗的“减少影响的数学:帮助需要”名单初步设想用于指定减少影响的代理商,他的“在实践中减少的影响:随机抽样的未来”勾画了评估未来是否受到影响的简单方法。

阿姆斯特朗的“效用无差别”概述了原始的效用无差别的想法,是由于历史原因,很大程度上是有趣的。它是由上面链接了“应有的价值通过学习冷漠”纸归入。


值学习

由于我们自己对我们的值的理解是模糊和不完整的,也许最有希望将值加载到一个强大的AI的方法是为代理指定一个标准学习我们的增量值。但是,这提出了许多有趣的问题:

假设你构建了一个训练集,里面有很多结果,都是快乐的人(标为“好”),还有一些结果是悲伤的人(标为“坏”)。从这些数据中,我们可以得出最简单的结论,那就是人类真的很喜欢人形的微笑物体:这个代理可能会尝试建立许多小型的电子动物,看起来很开心。

价值学习必须是一个在线的过程:系统必须能够识别歧义,并就这些歧义向用户提出查询。金宝博官方它不仅要识别出它不知道如何分类的情况(比如它不能分辨一张脸看起来是高兴还是悲伤的情况),而且要识别出它不知道如何分类的情况确定尺寸沿着训练数据没有给出信息(例如,当你的训练数据从未显示的结果充满看起来幸福的人形自动机,打成毫无价值)。

当然,歧义识别仅是不够的:你不希望一个系统,花前三周要求澄清人类是否仍然值得在不同海拔高度时,或当风吹,最后(运营商停止后注意)问是否重要的是人形金宝博官方的东西是自己的意志。

为了使代理人能够可靠地了解我们意图时,代理必须构造并细化其操作符的模型,并使用该模型通知其查询并更改其首选项。要了解更多关于这些问题和其他问题的信息,请参阅以下内容:

  1. 苏亚雷斯’”价值学习问题提供了一些与价值学习相关的开放性问题的概述。

  2. 杜威的“学会珍惜什么进一步讨论了价值学习的难度。

  3. 正交性的论文认为,价值学不会在默认情况下得到解决。

  4. MacAskill的“规范的不确定性为讨论规范的不确定性提供了一个框架。需要注意的是,完整的工作虽然包含了许多深刻的见解,但篇幅很长。你可以通过浏览部分或者跳过一些,特别是如果你对其他活跃的研究领域更感兴趣。金宝博娱乐


解决规范不确定性的一种方法是Bostrom & Ord的"议会模型”这表明值学习是有点相当于选举人聚集的问题,那许多值学习系统可以被建模为议会投票系统(其中,选民是可能的效用函数)。金宝博官方

欧文Cotton-Barratt的“归一化的几何原因讨论了效用函数的标准化;这与道德不确定性下的推理玩具模型有关。

费伦斯坦和斯汀农的"响度讨论了一个关于聚合效用函数的关注,这源于效用函数编码的偏好在正仿射变换下保持不变的事实(例如,效用函数被缩放或移动)。这意味着,为了规范化可能的函数集,需要特别注意。


其他工具

精通任何学科都是一种非常强大的工具,尤其是在数学领域,在这个领域里,看似不相关的主题实际上是紧密相连的。数学的许多领域都有这样的性质,如果你非常非常了解它们,那么无论你去哪里,这种理解都是有用的。考虑到这一点,虽然为了理解MIRI的积极研究,下面列出的主题并不是必须的,但理解这些主题构成了数学工具箱中的一个额外工具,在进行新的研究时,通常会证明这是非常有用的。金宝博娱乐

离散数学

教科书可用线上。大多数的数学研究连续或不连续的结构。很多人发现,离散数学更直观,离散数学的深入了解将帮助你获得对许多其他数学工具,如群论,拓扑和信息论的离散版本的快速处理。


线性代数

线性代数是其中的工具之一是显示了在数学几乎无处不在。线性代数的深入了解将在许多领域有帮助的。


类型理论

集合理论通常作为现代数学的基础,但它不是唯一可用的候选。类型理论还可以作为数学的基础,并且在许多情况下,类型理论更适合于解决手头的问题。类型理论也连接了计算机程序和数学证明之间的理论鸿沟,因此通常与某些类型的人工智能研究相关。金宝博娱乐


范畴理论

范畴理论在一个非常高的抽象层次上研究许多数学结构。这可以帮助您注意到不同数学分支中的模式,并且使您的数学工具从一个领域转移到另一个领域更加容易。


拓扑结构

拓扑学是数学中随处可见的另一门学科。对拓扑的牢固理解在许多意想不到的地方是有帮助的。


可计算性和复杂性

MIRI的数学研究正在努金宝博娱乐力的解决方案,最终将相关的计算机程序。一个很好的直觉什么计算机能够常常是必不可少的。


程序验证

程序验证技术允许程序员确信特定的程序将根据某些规范实际执行。(当然,仍然很难验证规范是否描述了预期的行为。)虽然MIRI的工作目前不涉及验证真实世界的程序,但了解现代程序验证技术能做什么和不能做什么是非常有用的。

理解任务

为什么要做这方面的研究摆在首位?金宝博娱乐

超级智能

本指南主要是假设你已经与MIRI的任务板,但如果你想知道为什么这么多的人认为这是研究的一个重要而紧迫的地区摆在首位,金宝博娱乐超级智能提供了一个很好的概述。


理性:从人工智能到僵尸

这种电子大部头编译六卷解释大部分哲学和认知科学背后MIRI对AI视角的散文。


不够平衡

关于微观经济学和认识论的讨论,因为它们有助于发现社会的失误和盲点,包括被忽视的研究机会。金宝博娱乐试图回答一个基本问题:“什么时候雄心勃勃的项目能够实现不寻常的目标?”