不闯祸怎么使未来机器人乖乖听主人的话 (怎样才能不闯祸)

文章编号：42071 资讯动态 2024-12-03 高级机器学习系统操作者意图一致性

摘要

我们围绕一个问题来研究机器学习的八个领域：随着机器学习系统日益变得智能化与自动化，应当制定什么样的原则以确保机器学习的行为与操作者的利益相一致？我们聚焦于实现AI一致性过程中遇到的两个技术瓶颈：确定一个合适的目标函数遇到的挑战；即使目标函数未能与设计者的意图达到完全匹配，设计出能够避免超出预料范围的结果与不可取的行为的AI系统所遇到的挑战。

在本研究中涉及到的开放性问题包括：我们如何通过强化手段训练学习者采取行动，以便他们能够经得起智能化监督器的有意义的评估？应当选用何种目标函数，以便系统“不会产生过大的影响”，“也不会产生太多负面影响”？在文章中，我们将讨论这些问题，相关的研究及对未来研究产生的潜在影响，旨在强调机器学习领域中目前可以驾驭研究的相关研究话题。

引言

近年来人工智能研究领域取得的进步再次激发了人们对Russell和Norvig(2010)所提出的问题兴趣，“倘若我们成功了？”如果AI研究者成功地设计出能与人类媲美的具有跨领域学习与决策能力的机器，这将会对科学，技术，人类的生活产生不可估量的影响。

比如，假设一个研究团队希望运用一种高级的ML系统制定相关方案，以发现治疗帕金森综合症的方法。如果这种高级ML系统能够制定计划，从而提供计算资源在治疗方法空间内开展广泛且有效的搜索，该团队将对这一高级ML系统持肯定支持的态度。如果该高级ML系统能够制定出计划，快速扩展机器人实验室，该种类型的机器人实验室能够实施快速而有效的实验，却会对生物圈产生大规模的负面影响，该团队将对这一系统持反对的态度。问题在于，我们应当如何设计系统（及选择目标函数），以使我们的ML系统能够可靠地实现第一个目标，而非第二个目标？

凭直觉来讲，倘若我们能够规范自己想要表达的意思---“找到一种治疗帕金森综合症的方法，而非使用任何极端的手段”，那么Bostrom(2014)在“超智能化”一书中描述的危险将会被减少。但是，为了实现这一目标而为正式确定令人满意的目标函数作出任何不成熟的尝试，这种行为通常将生成产生超出人们预期的行为的函数。

主要的技术难题表现在哪些方面？Russell（2014）强调两点：由于很难对人类的价值观念进行清晰界定，如此便难以找到一种与人类价值体系完美匹配的系统目标函数；任何具有实力的智能系统均偏重于保证自身的存在性与获取物理和计算资源---不是为了其自身的利益，而是为了成功地完成既定的任务。换句话讲，至少存在两种明显的研究类型：这两种研究类型能够提高未来研究者设计出具有一致性AI系统的能力：我们能够可以做一些研究以便较容易确定目标函数；我们可以做一些研究以设计出能够避免大量负面影响和负面刺激的AI系统，即便有时目标函数不能与设计者的意图达到完全的一致。Soares与Fallenstein（2014）称前面一种方法为“价值规范”，后一种为“错误容忍”。

本研究基于这两种保持高级ML系统一致性的方法，探索8个研究领域，其中一些领域已经在更大的ML研究社区中激起研究兴趣。其中，一些研究领域聚焦于价值规范，一些聚焦于错误容忍，还有一些将两者结合在一起。由于减少容易犯错的人类程序员可能到来的错误风险本身就是人类共享的价值理念，这两种研究目标之间的界限可能并不是那么清晰。

为了使下文讨论的解决问题的方案在未来更为有用，这些方案必须能够适用于那些比现存的ML系统更为有效的系统。那些主要依靠于系统对于某个可发现的事实的不敏感，或依靠于系统无法提出一个特殊的策略的解决方案，从长远来看，这些方案都不甚令人满意。正如Christiano(2015c)所讨论的，如果用于保持ML系统与其设计者的意图相一致的技术不能与智能相匹配，那么在我们可以运用ML系统在保守条件下可以取得的成果与可以运用该系统有效取得的成果两者之间将出现差异。

我们将聚焦于安全保障，在目前运用ML的典型环境中，这些安全保障可能会显得极端，例如保障形式，“过一段时间后，该系统将会出现零显著错误”。这些保障形式在以安全为主的系统中是不可或缺的，因为一个小错误将在现实世界中产生灾难性的后果。（这种形式的保障之前是有先例的，例如，Li,Littman,与Walsh（2008）的KWIK学习框架中提及到的）。当我们在考虑小问题和简单的例子时，我们应当把这些强有力的保障方式记在心中。

我们考虑的八个研究主题如下：

1.归纳式歧义识别：我们如何训练ML系统来检测并告知我们通过训练数据并不能够确定测试数据的分类？

2.强健的仿真方法：我们如何设计并训练ML系统以有效地模仿复杂且困难任务中人类的行为活动？

3.知情式监督：我们如何训练一种强化学习系统，在精确评估系统性能方面能够帮助一个智能监督者，如人类？

4.可普及的环境目标：我们如何创建一些系统，使这类系统能够强健地追求环境状态下确定的目标，而非追求基于感官数据确定的目标？

5.保守性的概念：如何训练一个分类器，以提出一些有用的概念来排除那些极为非典型的例子和边缘化的案例？

6.影响措施：应当采取什么样的措施来刺激系统以最小的负面影响来追求目标？

7.温和型优化措施：我们如何设计出不会过分追求其目标的系统，即当所追求的目标已经得到很好的实现时便适可而止，而不是为了实现绝对优化的预期成果，投入过多的精力搜索资源？

8.避免工具性激励措施：我们应当如何设计并训练系统，使这些系统缺少默认的激励措施来操纵与欺骗操作人员，竞争稀缺资源等？

在第2部分，我们将轮流简要介绍每一个研究主题及每一个研究领域中相关的研究案例。接下来我们将讨论对于未来研究的启示，即鉴于大量的计算资源和自动化，我们期望能够衍生出有助于设计出强健且可靠的ML系统的工具来。

研究动机

近年来，机器学习领域已经取得突飞猛进的发展。Xu等(2015)运用一个基于注意的模型能够极为精确地评估并描述图像（通过字幕）。Mnih等(2016)运用深度神经网络和强化学习在多种Atari围棋比赛中取得了好的性能测试结果。Silver等(2016)运用经由监督式学习和强化学习训练，且与蒙特卡洛模型技术相匹配的深度神经网络战胜了人类围棋世界冠军。Lake,Salakhutdinov及Tenenbaum(2015)运用分级式Bayesian模型仅需要使用一个单一的例子便可以学习视觉概念。

从长远看来，运用机器学习和其他AI技术的计算机系统将会变得越来也智能，人类也将有可能相信那些系统可以作出更多的决策，变得更加自动化。随着这些系统的性能越来越高，使这些系统的行为与操作者的意图保持一致，不会对全社会造成危害，这一点变得尤为重要。

当AI系统在性能方面得到越来越快的提升，设计出能够可靠地把这些系统与预期的目标保持一致的训练程序和测试准则将变得越来越困难。例如，我们来看一下下面这个例子：依据得分实施奖励，训练一个强化学习者来玩视频游戏的任务（per Mnih等，2013）。倘若学习者在游戏过程中找到一些能够使其获得高分的漏洞，他将采取措施利用那些漏洞，忽视程序员感兴趣的游戏特征。与我们的直觉相反，提高系统的性能将减少这些学习者在游戏中取胜的机率，这在某种程度上与我们的感觉相反，由于系统越智能，越能够找出训练程序与测试准则中的漏洞（如若获取一个较弱强化学习者的这种行为的简单实例，请参照Murphy(2013)）。

智能系统能够以惊人的方式解决问题的能力称得上是一种特征，而非一种瑕疵。它们能够以一种连程序员都无法想出的聪明的方式来达到目标，这是这类学习系统具有吸引力的重要特征之一。但是，这一性质是一柄双刃剑：当这一系统变得更善于找到与人们直觉相反的解决方法，它也将更善于找到能够形式上实现操作者的直接目标，而不满足其预期的目标的方法。

由于这些智能系统追求现实生活中目标，这些漏洞也将变得更为微妙，更为冗余，且更为重要。就此，我们可以考虑一下为学习系统设计出强健的目标函数，以使得这些学习系统能够代表程序员观点与欲望，在此过程中会遇到的挑战与困难。当程序员了解到该系统的目标函数未得到正确规范，他们便想要修复这一缺陷。然而，当学习者意识到这样一点，他将视其为一个自然的刺激，便会想办法掩盖目标函数中存在的这些缺陷，因为如果该系统被用于追求不同的目标，其当前目标将不可能得到实现。（这一现象将在Bostrom,2014与Yudkowsky,2008一文中作详细讨论。Benson-Tilsen与Soares(2016)提供了一个简洁的阐释）。

上述讨论结果激励我们研究规范目标函数的工具与方法，使得这些目标函数能够避免那些默认的激励措施，及研发ML系统的工具与方法，使得这些机器学习系统在追求那些目标时不要过度优化。

下文是对提到的八个研究主题及相关研究成果作详细介绍，在此不做赘述。

结论

能够更好地理解上述描述的八个开放性研究区域中的任何一个领域均将提高我们未来设计出强健且可靠的AI系统的能力。以下是对上文讨论结果的回顾：

1,2,3---更好地理解强健的归纳式歧义识别，仿人类，知情式监督将有助于设计出能够由人类进行安全地监督（必要时询问人类）的机器学习系统。

4---找到规范环境目标的更好的方法，这将使得设计出追求我们真正关心的目标的系统更为容易。

5,6,7---更好地理解保守型概念，低影响力的措施，温和型优化方案会使得设计出高级系统更为容易，这种系统的错误率将降低，并且允许在线测试和调整等操作。与一个试图实现某个特殊目标函数最大化的超智能系统相比，一个集保守型，低影响力，温和型优化三种特征于一体的超智能系统能够得到更为简单安全地运用。

8---一个避免收敛工具子目标的通用策略将帮助我们构建一类能够避免不可取默认激励措施，如欺骗操作人员，竞争资源的激励策略，的学习系统。

在研究诸如上述讨论过的问题时，我们应当记得，这些研究是用于解决我们未来可以预见的高智能系统可能带来的长期问题的，这一点极为重要。正如那些在理论层面可行，在实践中费用惊人的方案一样，那些适用于当代智能系统，却能够预测到不适用于更高性能学习系统的的解决方案同样是不可取的。

这八个研究领域支持以下观点：存在一些开放性的技术问题，其中一些问题已经得到学术界的注意，为此所做的研究可能会对一些试图构建强健且有益的高级ML系统的研究者有所帮助。

如需对本文作多了解，请访问原文链接细节

原创文章，未经授权禁止转载。详情见转载须知。

本文地址： https://www.gpxz.com/article/b080204b6b19cc7d4fb9.html

上一篇：我是如何让Locus成为亚马逊Kiva的继承者的L

下一篇：外骨骼从帮助截瘫病患行走到控制机器人外骨

谷普下载

谷普下载免费网站资源分享、软件分享、游戏分享、应用分享、素材分享、文档分享、电影分享、健康美食、娱乐动态、教程学习互联网资源共享！

电脑网络 2026-03-03 20:10:19

亚冠直播

24直播网ʕ•̫͡•ʔ曼波~ʕ•̫͡•ʔ虔诚为您提供：亚冠直播、亚冠直播免费观看全部、亚冠直播在线直播观看高清等服务。您可以随时随地通过我们的平台观看亚冠比赛直播，无需安装任何插件，轻松畅享精彩比赛。我们致力于为广大亚冠爱好者提供最优质的直播服务，和我们一起感受亚冠直播激烈的比赛现场吧！

商业服务 2026-01-24 22:07:56

元业伯乐

电影视频 2026-01-24 22:48:06

西安高度电子科技有限公司

科技创新 2026-01-24 23:05:26

手机游戏,安卓手机游戏,苹果手机游戏

11度游戏网是国内最热门最好玩的手游下载平台,为玩家推荐新款手机游戏免费下载,热门的手游排行榜,最近好玩的手机游戏攻略,手机游戏,安卓手机游戏,苹果手机游戏。11度游戏网是您查找最新手游的最佳选择！

游戏网游 2026-01-25 00:11:42

景观灯

中山市润景照明电器有限公司是一家专门生产高杆灯、道路灯、景观灯、庭院灯、草坪灯等全套路灯及各种路灯配套设备产品,集设计、开发、零售、批发、工程于一体的大型企业,我们主要经营景观灯,庭院灯,路灯,壁灯,草坪灯,园林景观灯和景观灯,庭院灯,路灯,壁灯,草坪灯,园林景观灯，如果有兴趣请联系我们公司中山市润景照明电器有限公司，我们会以好的质量有竞争力的价格是您的优选!

编程开发 2026-01-28 16:56:31

安畅网络

安畅网络是专注于下一代云管理服务（Next-GenCloudMSP）的科技公司，企业在云基础架构、云安全、数据智能、云原生应用等领域拥有领先的专业技术能力和大规模最佳实践。目前，安畅已成功助力零售、地产、物流、制造、医疗健康、金融和政府等行业的3000多家企业和机构客户实现“云转型”，是数字化转型过程中可信赖的合作伙伴。

网络应用 2026-01-28 19:02:33

西湖影院

西湖影院为您提供最新『热映电影、热门电视剧、热播综艺、动漫视频』在线观看，每天第一时间更新,给您更好的视频观看体验,手机看片首选西湖影院。

网络应用 2026-01-28 21:23:05

山西朔煤七环工业信息有限公司

公司拥有一支专业的综合素质高、不断壮大的高科技人才队伍，并建有研发中心、运维中心、测试中心、生产中心，使我们能持续满足客户不断变化的需求，有效服务客户，为客户提供全方位的解决方案。

编程开发 2026-01-28 23:14:27

吉林省彬生蓝航天际无人机科技有限公司

吉林省彬生蓝航天际无人机科技有限公司，成立于2017年，公司总部设在长春市，并在吉林、沈阳、大连、合肥等地设有分公司和办事处。

网络应用 2026-01-29 12:14:50

无双大蛇Z

无双大蛇Z游戏专题;提供无双大蛇Z中文版下载,无双大蛇Z攻略大全,无双大蛇Z汉化补丁,无双大蛇Z视频解说,攻略视频,修改器,汉化下载,完美存档,MOD,配置,教学,截图,壁纸等资料。更多《无双大蛇Z》相关内容尽在游侠网。

电影视频 2026-02-03 01:07:54

和利隆文库

和利隆文库提供范文参考。主要栏目有:先进事迹、述职报告、范文、工作总结、工作计划、心得体会、调研汇报、演讲稿、公文范文等。

范文论文 2026-03-06 18:47:54

好玩的沙盒建造生存游戏推荐 2024热门的沙盒建造手游合集 (好玩的沙盒建造类游戏)

沙盒类游戏能让大家随心所欲地创造和破坏，这种游戏自由度超高，很多玩家都特别喜欢这种自由的感觉，今天小编给大家介绍一下好玩的沙盒建造生存游戏推荐，这些游戏不仅自由度高，建造玩法也特别有趣，如果大家也喜欢在游戏中自由发挥，那就千万别错过了，快跟着小编一起看看吧，1、，奶块，我们可以在这个超大的地图上随便跑，就像在真实世界里一样，不只是我们...。

2025-02-10 01:10:31

开一家干洗店多少钱 (开一家干洗店需要多少钱)

当下的日常生活中，基本大家都是离不开干洗行业，不管是各大街道，还是在小区周边，或者是学校区域，都是可以看到干洗店的存在，其生意都是十分红火，创业行列中，干洗店也是属于红火的创业项目，很多的人群都是想要开设这样一家门店，帮助自己收获到理想的财富，不过在开店之前，较多的创业者也是担忧自己的启动资金准备不充足，所以迟迟不敢行动，下文中和小编...。

2025-01-31 19:17:23

有心又实用的礼物不踩雷亲测有效 (有心用心走心的语录)

最近发现自己挺会送礼物的，每次送礼物都能得到朋友们的好评，首先和大家分享一下我送过女生朋友们的一些礼物，1.好看的餐具对于喜欢做饭的朋友，我一般会选择送餐具，一是实用，二是在单价不高的情况下可以品质不错的餐具，有几家是我最常买的，我曾经收到了一位可爱豆友的礼物，是一个精致的小盘子，质感很高级，也因此种草了青森食堂这个店，店里的餐具单价...。

2025-01-28 22:24:08

英特尔首席架构师Raja 成立生成式AI公司 Koduri辞职创业 (英特尔首席架构师离职)

昨晚隔壁老黄刚刚说完，生成式AI是新型计算机，我们正处于AI的‘iPhone时刻，，英特尔现任首席架构师就宣布辞职，开启生成式AI公司的创业之旅，本周三，英特尔首席执行官PatGelsinger在Twitter上宣布，公司现任首席架构师RajaKoduri即将离开公司，创办一家AI生成式游戏软件公司，Gelsinger透露，Kodu...。

2024-12-09 17:20:09

加盟月子会所多少钱 (加盟月子会所哪里好)

现如今的年轻父母们，文化层次相较过去是有所提高的，在坐月子方面，新时代的家庭更注重科学，而不是一味遵循古话，况且，已经有很多案例表明传统的坐月子方式并没有多少优势，甚至反而会引发生命危机，大众对于坐月子的这种需求，催生除了月子会所这一产业，并引起了很多智慧之选者的关注，那么加盟月子会所多少钱呢，月子会所加盟店的筹建，少不了的成本项目有...。

2024-12-02 23:28:36

海信电视亮相CES2019 Roku电视和4K激光投影仪瞩目 (海信电视亮相时间)

中国厂商海信亮相CES2019，一口气推出包括Roku电视、4K激光投影仪等多款产品，并且重点提升电视画质，希望以此打开美国电视市常海信CES2019发布会RokuTVR8系列，这款电视搭载Roku智能电视系统，通过全屏本地调光提升画面质量，R8在65英寸的尺寸上有64个调光区域，宽色域，700nit的亮度和杜比视觉，目前发售时间还未...。

2024-11-29 00:09:37

特朗普新政府边陲疑问担任人选定骨肉分别曾提倡对合法移民 (特朗普新政府国务卿)

美国入选总统特朗普外地时期11月10日晚经过社交媒体发表，他将任命美国移民与海关执法局前代理局长汤姆·霍曼在新政府中主管边陲事务，特朗普在帖文中称，霍曼将，担任咱们国度的边陲，包含但不限于南部边陲、北部边陲、一切海上和航空安保，特朗普将打击合法移民作为其竞选的外围内容，承诺将把合法移民大规模驱逐出境，霍曼曾在特朗普的第一个任期内担任...。

2024-11-13 12:43:37

外围圈都有谁只要他们才干左右拜登政治出路挺拜登继续竞选的 (外围圈子到底什么样的)

[全球时报特约记者王渠]因在2024美国总统大选首场电视答辩中，车祸般的体现，，现总统拜登连日来被美国各界要求退选，连独裁党大佬、美国前众议院议长佩洛西都在10日地下喊话，称，留给拜登的期间不多了，不过，拜登依然拒绝退选，第一夫人，吉尔·拜登的前资讯秘书迈克尔·拉罗萨在接受美国广播公司采访时示意，只要拜登的，小圈子，——关键由他的...。

2024-07-13 14:31:41

王毅用规劝北约三不

7月11日，中共中央政治局委员、外交部长王毅同荷兰新任外交大臣费尔德坎个别电话，就北约华盛顿峰会对中国启动无故指摘，王毅表态称，中方绝不接受，王毅示意，在敌对与安保疑问上，中国是环球上纪录最好的大国，一直是国际社会中的敌对力气、稳固力气，中国同北约国度政治制度、价值理念不同，但这不应成为北约怂恿同中国反抗的理由，正确之道是增强对话，增...。

2024-07-13 03:06:49

充满正能量的经典语录_经典语录

充满正能量的经典语录经典语录生活不是电影没有那么多不期而遇有些路必须一个人走不是孤独而是选择如果你是对的你没必要发脾气如果你是错的你没资格去发脾气既然你选择夜里躲被窝里流泪那你指望谁能看见既然你选择白天在人前笑的开心那你指望谁明白你委屈最可怕的不是离别而是当你回来的时候他们已经有了更要好的朋友了我喜欢听歌也喜欢独处喜欢...

2023-11-15 07:40:31

手工代付系统/api代付系统/代付系统源码

某站卖3888代付支付系统/人工代付源码1：单纯的代付系统简洁明了2：系统支持单笔代付以及批量代付3：系统支持api代付对接/手动代付4：支持白名单登录5：支持谷歌验证登录6：支持代付出款**播报7：系统分...

2023-09-17 17:45:49

中年女人不要黑白灰不离身了，照搬这6组颜色搭配，随便搭都好看|咖色|穿搭|杏色|卡其色|酒红色|整体造型

中年女人不要黑白灰不离身了，照搬这6组颜色搭配，随便搭都好看,咖色,穿搭,杏色,黑白灰,卡其色,酒红色,整体造型

2023-09-02 16:49:18

文章推荐

Windows 10即使有了这些改变依然无法逆袭成功 (windows)

雷锋网按，此次的微软发布会备受关注，尤其是Windows10被一致认为是微软的救命稻草，那么，Windows10做到了吗，2015年1月22日凌晨，微软正式发布了横跨移动、桌面、XBOX的新版操作系统Windows10，在苹果之后，微软终于想到了要打通移动和桌面，也把游戏整合了进来，从新版操作系统的特性上看，桌面版本终于不再强迫用户继...。

2024-12-09 20:11:55

资讯动态

二次创新我为纳米孔测序提供了更可靠的AI工具百图生科科学顾问高欣自我否定 (二次创新例子)

接下来，生物计算将成为百度重点发力的关键领域之一，在这一赛道的投入上，百度只有尽力，没有尽头，这是近期，李彦宏在首届生物计算大会上的一段豪言壮语，如今随着像百度、字节跳动、华为这些科技大厂的高调加注，以及各个VC接连不断的注资，与生物计算密切相关的AI新药无疑已经成为关注度最高的创业赛道，近日，雷锋网，医健AI掘金志，以，AI制药...。

2024-11-30 21:49:02

资讯动态

光峰Z2H激光投影仪怎么样多角度分析有哪些特点 (光峰uh520)

发表在其它家用投影仪品牌2022，2，914，14光峰Z2H是近期上市的新品激光投影仪，主打的商务办公，机身设计也是小巧便携的，那么这款投影仪究竟怎么样呢，下面就通过多角度分析光峰Z2H的参数配置，看看这款投影仪究竟有什么特点，光峰Z2H激光投影仪怎么样，1.光学参数光峰Z2H采用ALPD激光显示技术，为设备提供了更好的光效，让画面色...。

2024-11-29 01:49:16

网络百科

最新看电视直播方法分享峰米激光电视C2怎么看直播 (最新看电视直播的软件有哪些)

发表在峰米投影仪2021，5，713，37峰米激光电视C2是一款性价比高的超短焦投影设备，内置FengOS操作系统，支持下载第三方应用软件，可以在线观看电视直播，具体峰米激光电视C2怎么看直播，下面就分享最新的操作方法，一、准备工作1.峰米激光电视C2一台；2.峰米遥控器一个；3.U盘一个，二、峰米激光电视C2怎么看直播方法一，1.在...。

2024-11-28 13:36:34

网络百科

损害声誉权暴露借款人团体隐衷 (损害声誉权暴力犯法吗)

申明，1.以上内容仅代表揭发者自己，不代表黑猫揭发立场，2.未经授权，本平台案例制止任何转载，违者将被清查法律责任，3.黑猫揭发处置揭发不收取任何费用，凡以黑猫揭发名义不要钱的均为混充、诈骗行为，请及时报警并与黑猫官网反应，揭发邮箱heimaotousu@vip.sina.com，4.请大家选用官网渠道处置生产纠纷，不要轻信第三方机构...。

2024-07-17 19:26:21

销售心理学

不 闯祸 怎么使未来机器人 乖乖听主人的话 (怎样才能不闯祸)

摘要

引言

研究动机

结论

相关文章

文章推荐

不闯祸怎么使未来机器人乖乖听主人的话 (怎样才能不闯祸)