Dean丨谷歌战神谈增强学习和无监督学习专访 Jeff (谷live)

文章编号：46090 资讯动态 2024-12-09 dean 无监督学习增强学习 jeff

专访 Jeff Dean丨谷歌战神谈增强学习和

编者按：近日，谷歌大脑负责人 Jeff Dean 在接受 Fortune 杂志采访时讲述了他对无监督学习和增强学习在人工智能领域应用的看法，雷锋网进行编译。

下一次你在使用谷歌搜索引擎或者使用地图导航的时候，你需要记住他们背后有一个很大的大脑为你提供搜索结果，并确保你不会迷路。

当然，它并不是一个真正的大脑，而是谷歌大脑研究团队。《财富》杂志的 Roger Parloff 写到：

研究人员推动人工智能面临的挑战是什么？

无监督学习的不成熟。人类的学习方式可以看作是一种无监督学习，即你只需观察你周围的世界并理解事物的运行方式来丰富你的认知，无监督学习是机器学习非常热门的一个分支，但是它还未达到监督学习能解决任务的那个程度。

无监督学习是指如何从观察和感知当中学习的，如果计算机可以观察和感知，这是否可以帮助解决更复杂的问题？

没错，人的视觉主要通过无监督学习的方式获得训练。当你还是一个孩子的时候，你在观察世界时，有时你会得到一个监督的信号：比如有人说“这是一只长颈鹿”或者“这是一辆车”的时候，这些少量的监督数据就是你的心理模型对自然的回应，从而完成你对世界的认知。

我们需要更多地结合监督和无监督学习，就我们大多数机器学习的系统工作方式而言，我们还未真正到达那一步。

可否解释一下增强学习技术？

增强学习背后的逻辑是你未必需要明确你要采取的行动，你只要试探性地做一个你认为不错的行动，然后观察“世界”会有怎样的反应。如同下棋一样，你可根据你对手的行动来进行反应。最终在整个序列行为后得到奖赏信号。

增强学习是在你得到奖赏信号的同时，能将“信任”或“过失”分配到你。它在今天的某些领域非常有效。

当你所执行的任务状态非常宽泛时，此时使用强化学习就会遇到一些挑战。在现实世界中的某个固定时刻操作一个事项涉及到的执行范围可能非常广泛。而在棋盘游戏当中，你走的每一步棋都限定在一定的范围内，而且游戏规也会对你进行限制，这使得其奖赏信号的逻辑非常简单：要么赢，要么输。

如果我的任务是磨一杯咖啡或者其他，整个过程我也许需要采取一系列的动作，而且没有固定的评判标准，那么这个奖赏信号就不是那么清晰。

但你仍然可以分为很多步骤，如当你在现磨一杯咖啡时，你就会学习到如果没有在咖啡豆被冲泡之前把它们磨碎就会做出来一杯糟糕的咖啡。

对，我认为增强学习核心地方就是它需要探索。这种探索在物理环境当中使用有点困难。我们开始尝试把它应用在计算机当中，当机器人采取一系列行动时，它会被限制在一个指定时间中只可以采取有限数量动作的集合。然而在计算机模拟中，它更容易使用大量的计算机资源，并得到一百万个样本。

谷歌是否将增强学习应用在核心搜索产品中？

我们主要通过 DeepMind 和我们的数据中心操作人员之间的合作来将增强学习应用在核心产品中。它们使用强化学习来设置数据中心内的空调旋钮，并实现相同的、安全的冷却操作和操作条件，大幅降低能耗。他们能够发现哪些旋钮的设置可以起到一定的作用，以及当你以不同的方式转动旋钮时，它们会如何反应。

通过增强学习，可以发现这 18 个旋钮的设置，或者更多旋钮并未被操作人员考虑进去。了解这个系统的人会这样说：这真是一个奇怪的系统。但是事实证明，它们运行得确实不错。

增强学习更适用于哪些任务？

数据中心运行良好因为你一次需要执行的不同操作并不多。正像 18 个旋钮，你在那里可以上下旋转它们。这样结果是可以计算出来的。假设你在适当的、可接受的温度范围内工作，你就会得到一个让能耗降低的奖赏操作。从这个角度看，这差不多是一个理想的增强学习问题。

一个更具挑战性的强化学习案例是试图用它来决定我该显示什么样的搜索结果。这有一个更广泛的搜索结果集，我可以展示出不同查询的反应，并且奖赏信号本身就是一种小范围的噪音。就像用户看一个搜索结果，喜欢和不喜欢表现地不是那么明显。

如何判断用户在搜索中不喜欢某一个结果？

这的确是一个很难解决的问题。由于强化学习可能还不够成熟，以至于在一些极度无约束的环境中，奖赏信号还不是那么明显。

将研究成果应用于用户每天使用的产品时，有哪些比较大的挑战？

这里面其中一项就是，很多机器学习问题的解决方案和我们对这些解决方案的研究可以在不同的领域中重复使用：我们与地图团队合作了一些研究，他们想要读取出现街头所有店铺和 Logo，从而更好地了解世界，比如确定这里是披萨店还是其他。

为了在图像中找到文本，你可以训练一个机器学习模型，并给它一些样本，比如人们在文本周围画一个圆圈或者方框。实际上，你可以用它来训练模型去检测哪些图像中包含文本。

这是一个普遍适用的功能，地图团队中的不同部门可以重复使用以上模型来完成卫星图像分析任务，比如在美国境内或者世界范围内找到一个屋顶或者估计在屋顶上的太阳能电池板的安装位置。

随后我们发现，相同类型的模型可协助我们解决医疗成像的初步工作。现在你有了医学图像，你可以试图找到那些与临床相关图像的有趣部分。

原创文章，未经授权禁止转载。详情见转载须知。

专访 Jeff Dean丨谷歌战神谈增强学习和

本文地址： https://www.gpxz.com/article/e1906bc9f608d90b5597.html

上一篇：Google在受到批评后正在提高工资改进员工评

下一篇：LeCun一小时演讲附完整视频YannFacebook研

SIGEP

SIGEPChina深圳国际手工冰淇淋、烘焙及咖啡展览会，2023年落户深圳！是全球领先致力于甜品烘焙和咖啡餐饮业的B2B展会，被誉为欧洲最大的烘焙咖啡行业盛会！是整个行业创新的参考点，提供了所有新市场发展的完整概览：烘焙、巧克力、西点、冰淇淋、咖啡板块相互连接.提供了一个360度的甜点和咖啡世界。

行业信息 2026-01-21 14:38:54

秦皇岛春控电气设备有限公司

电影视频 2026-01-25 01:28:04

AIGC开放社区

电影视频 2026-01-25 20:01:34

东莞律师事务所

沃土律所团队熟悉本地司法，具有扎实的法律理论基础，工作态度严谨、认真，案件胜诉率高。办理过大量各类案件，积累了丰富的诉讼和非诉讼业务实践经验。为你提供优秀的东莞律师顾问服务，东莞民事诉讼律师服务，东莞刑事律师辩护业务，提供免费法律咨询，擅长办理公司法务、合同纠纷、经济纠纷、婚姻家庭、债权债务、商标专利、劳动工伤、交通事故、房地产和建筑工程纠纷、刑事辩护等法律业务。

商业服务 2026-01-25 20:44:51

江苏新扬子造船有限公司

集团公司下辖江苏新扬子造船有限公司、江苏扬子鑫福造船有限公司、江苏扬子三井造船有限公司及江苏扬子江船厂有限公司4家造船企业，分布于长江下游江苏省境内的靖江市、泰兴市和太仓市的黄金水道两岸，距上海、南京两大城市均170公里。集团在上海还拥有两家船舶设计公司。集团目前总资产超过700亿人民币，占地面积500万平方米，码头岸线7000余米，职工6000余名。

设计美化 2026-01-25 21:00:59

顿之升网络

顿之升网络-高端网站建设-河南顿之升网络科技有限公司

网络应用 2026-01-25 21:55:05

坏坏情感

坏坏情感是男女恋情百科知识分享网站,帮助您解决情感关系中的恋爱问题、经营爱情、情感矛盾、挽回恋情等内容,挽回男女双方因矛盾破裂的感情。坏坏情感,让更多情侣简单的经营爱情与解决矛盾。

网站模板 2026-01-28 15:57:27

安陆市昌明粮食机械股份有限公司

安陆市昌明粮食机械股份有限公司是国内集粮机的研发、生产、销售于一体的主要骨干企业之一。单机品种涵盖清理、去石机系列;谷糙分离筛系列；白米分级筛系列;低温碾米机系列；大米抛光机系列；提升机系列以及日产20~200T系列成套碾米设备。

企业品牌 2026-01-28 16:50:34

交通百科网

交通百科网：包含了轨道交通、城市轨道、机场地铁、线路规划等行业资讯

新闻资讯 2026-01-28 23:14:01

消费最前线

消费最前线（原锦鲤财经）是一家专注于商业消费领域的新媒体。专注于推动行业发展，为用户提供最前沿、最时尚、最实用的资讯和报道，打造最专业的消费产业动态交流原创平台，展现个体创业与品牌的融合之美。

新闻资讯 2026-01-29 14:09:42

地宝网（tiboo.cn）

地宝网（www.tiboo.cn）是一个专门提供南昌本地生活、消费信息和情感交流的网上生活家园。专注南昌城市百姓生活，让百姓享受时尚生活乐趣。

行业信息 2025-02-09 17:07:12

通过式抛丸机,抛丸清理机价格,抛丸机厂家,悬链式抛丸机,滚筒式抛丸机

专业生产：履带式抛丸机，吊钩式抛丸机，通过式抛丸机，滚筒式抛丸机，悬链式抛丸机，台车式抛丸机等生产厂家。

电影视频 2025-03-04 21:10:31

百莲凯康养中心好不好开店要多少钱 (百莲凯康养中心)

国内的健康产业发展规模每年都在不断的扩大，如今越来越多的消费者对于养生服务项目青睐有加，成为了日常健康保护的选择项目，在国内就有着很多发展出色的健康服务项目，百莲凯康养中心以全面的康养服务方式面向不同类型的消费者，在服务品质上出色，百莲凯康养中心专注大健康产业发展多年，以智能全面的养生模式进军市场发展，多年来的出色发展获得了业内外人士...。

2025-01-16 02:10:14

未来沃尔玛 5 (未来沃尔玛选择跨国经营战略的趋势)

语音播放文章内容由深声科技提供技术支持您的浏览器不支持audio元素，雷锋网消息今天，沃尔玛中国在其一年一度的发展商大会上宣布，未来5，7年计划在中国新开设500家门店和云仓，包括沃尔玛购物广场、山姆会员商店、沃尔玛社区店多个业态，沃尔玛对中国市场充满信心，持续加大投资发展，除了开设新店，未来3年还将对200家现有门店进行大刀阔斧的升...。

2024-11-30 23:39:37

历史怎么做 (历史怎么做思维导图)

材料一中的事件发生在秦朝，史称焚书坑儒，建议者是秦朝丞相李斯，主导者是秦始皇嬴政，影响是使六国及以前的文化遭到毁灭，使各派学说遭到毁灭，尤其是儒家学派，除巫医卜筮之书没被焚毁外，其余均遭到了焚毁，使中华文化遭到重创，材料而二中的事件是罢黜百家，独尊儒术，他的建议者是董仲舒，主导者是汉武帝刘彻，材料二中的建议者提出了罢黜百家，独尊儒术的...。

2024-11-24 19:39:14

大米手机流量联盟站内互动数据分析 (大米手机流量怎么开)

文字链接认证代码普通联盟标志认证代码企业广告联盟标志认证代码广告联盟评测代码说明，本页面的认证代码为大米手机流量联盟专用评测代码，站长需懂简单html知识，直接复制代码粘贴到联盟网站相应页面即可使用，本代码不适用于其他广告联盟网站请勿获取！文字认证，文字链接代码认证适用所有类型的广告联盟，复制代码后放在大米手机流量联盟网站首页底部或友...。

2024-11-19 16:12:44

德国执政联盟一夜瓦解停摆政府或堕入 (德国执政联盟解体)

外地期间11月7日，德国政府发言人称，因为德国联邦执政联盟瓦解，德国总理朔尔茨将不会前往阿塞拜疆首都巴库参与第29届联结国气象变动大会，朔尔茨原方案参与11日、12日的会议，此外，依据德国媒体报道，联邦议院简直敞开了本周一切议程方案，德国政府或堕入，停摆，△德国总理朔尔茨，资料图，外地期间11月6日，德国总理朔尔茨发表解除自民党主席...。

2024-11-12 17:57:34

完整的 Period有什么意思 (完整的perl脚本)

时期，周期，时代，句号，一段时期，元素周期，period，英文单词，作名词或描画词，翻译为时期，阶段，课时，经期，句号，该词起源于希腊语periodos，短语搭配，SpringandAutumnPeriod春秋时期；春秋战国时期；aperiodoftime一段时期；periodoftime一段时期，时期；periodofadolesc...。

2024-07-16 03:39:16

xk是什么牌子 (XK是什么牌号的车)

捷豹的高功能跑车XK是捷豹品牌的一款经典车型，因为销量不佳，2014年逐渐停产，但是，近日有信息称捷豹方案从新进行XK车型，并将于2021年推出全新的XK车型，该车型将以全新F，TYPE为基础打造，提供三种能源系统，全新的XK车型将基于全新一代F，Type打造，允许创立新的更宽阔的2，2模型，与XKRFinalFiftyEdition...。

2024-07-07 12:34:28

售9.69

多少钱区间，9.69，14.39万元思皓QX推出了8款车型，购车可享购车补贴、增换购补贴等五大活动，作为MIS皓学架构的首款车型，它驳回了家族式设计，搭载1.5T发起机，外观共同，前脸彩色进气格栅分隔，网格状纹理装璜外部，流利的车身线条驳回能量脉冲腰线，增强平面感，尺寸方面，长4605mm，宽1890mm，高1700mm，轴距2720...。

2024-07-07 11:52:41

称台渔船被查扣点确真实大陆水域内台当局中国海警已发声海巡署 (船主称渔船疑遭袭击)

据中天资讯网等台媒7月3日报道，澎湖渔船，大进满88号，2日晚在金门西南外海作业时，被大陆海警船登检，并将船只带回大陆，关于后续解决，台当局，海巡署，当天，3日，上午在记者会上说明最新停顿，称此次案发地点确真实大陆水域内，中国海警局资讯发言人刘德军今天示意，7月2日，福建海警位泉州远海依法登审核扣一艘涉嫌合法捕捞的台湾省籍渔船，该渔船...。

2024-07-04 00:34:32

中国车队遇袭中国使领馆发声车窗留下多个弹孔！2名恐惧分子被击毙防弹玻璃被打裂 (中国车队遇袭视频)

据@CCTV国际时讯，巴基斯坦三军公共相关部信息，巴基斯坦安所有队8月13日在俾路支省瓜达尔展开反恐执行，击毙2名恐惧分子，打伤多名恐惧分子，巴基斯坦媒体在社交媒体上颁布的现场视频截图，澎湃资讯，据报道，外地期间8月13日上午，在巴基斯坦瓜达尔机场左近地域，一支车队内行驶途中遭恐惧分子袭击，护卫车队的安保人员与恐惧分子交火，至少击毙一...。

2024-07-03 18:51:28

AMDRadeonPROSoftware(AMD企业级驱动)v21.5.2官方安装版

AMDRadeonPROSoftware是一款企业级设备驱动软件，能够满足专业人士的各种需求，能够为你进行持续优化性能来加速工作流，还能够通过该软件全天远程访问AMD工作站。基本简介RadeonSoftware经过全新设计，为用户带来简洁、时尚且易用的界面，支持一站式快速启动各种软件功能，查看游戏统计数据、性能报告、驱动程序更新等等。利用ALT+R热键可直接在游戏中启用RadeonSoftware，

2023-11-11 14:20:07

异星铁路修改器下载-异星铁路修改器v4.7.42.1一修大师版

异星铁路修改器是该同名游戏的一款修改工具，由一修大师制作分享，具有金钱修改、金币增加、无限金钱、无限金券、无限石油等修改功能

2023-11-06 10:39:38

文章推荐

全球AI智适应教育峰会的入场券为什么你需要一张 (全球ai智能公司排行)

谈及智适应学习，或许你依然不明觉厉，但是这个最早出现在上世纪90年代美国的，智能辅导系统，中的概念，如今已经成为一个主流的垂直产业，尽管过去10年一直不温不火，但是有了AI能力的加持，智适应学习正迎来崭新的春天，传统意义上，智适应学习强调将学生按照优良中差进行分层，让每个学生享受最适合个人的教学资源，在此基础上曾经萌生出两种思潮，一种...。

2024-12-10 01:28:30

资讯动态

携手打造金融科技发展引擎华安证券与腾讯云战略合作 (发挥金融助力)

10月26日，腾讯云与华安证券正式签署战略合作协议，双方将围绕新型数字基建、新兴数字生态、金融科技体系建设等层面展开深度合作，形成数据驱动和业务联动的有效运营模式，为个人或企业及机构客户提供更快、更好、更全面的产品和服务，华安证券是安徽省第一家专营的证券机构，拥有以证券经纪、资产管理、投资银行服务、投资服务、基金债券代销服务等为基本架...。

2024-12-09 21:24:35

资讯动态

极氪两年半造出一个IPO 估值940亿元三年交付17000辆 (极氪26万)

紧随，蔚小理，，极氪也加快赴美上市的脚步了，继，蔚小理，之后，成立迄今不足三年的极氪将成为第四家赴美上市的国内智能汽车企业，刷新了国内造车新势力的最快上市速度，在此之前，，蔚小理，从创立到上市分别用了4年、7年以及5年，尽管背靠吉利这座，大山，，但作为，车二代，的极氪，与其他几家造车新势力有几分相像，极氪似乎也难逃亏损的命运，累计售出...。

2024-12-09 17:09:37

资讯动态

存算一体与CIPU 达摩院预测后摩尔时代的三驾马车芯粒 (存算一体与FPGA)

1965年的一天，美国仙童半导体公司一位叫戈登·摩尔的工程师应邀撰写了一篇题为，让集成电路填满更多的元件，的文章，对集成电路未来的发展做出经济性预测，并在，电子学，杂志刊出，这一预言之后逐渐被完善，并影响了此后60多年全球集成电路产业的发展，对整个信息技术产业都产生深刻影响，用确定的方法对不确定的未来进行预测是人类最朴素的追求，却也是...。

2024-12-09 14:32:27

资讯动态

大牌冒菜加盟好吗前景如何 (大牌冒菜加盟费官网)

冒菜是当下热门的餐饮美食类型，在国内大大小小的城市地区都能够看到冒菜餐饮项目的火热发展经营，成为了很多消费者青睐的选择，在国内就有着很多发展出色的冒菜餐饮品牌，大牌冒菜凭借出色的发展被诸多消费者所看到和喜爱，有着较好的发展表现，大牌冒菜以主打的油辣子冒菜备受瞩目，在品牌以及产品方面的优势十足，而且店内的冒菜美食搭配丰富，已经成为了很多...。

2024-11-23 01:22:44

创业加盟

Dean丨谷歌战神谈增强学习和无监督学习 专访 Jeff (谷live)

研究人员推动人工智能面临的挑战是什么？

无监督学习是指如何从观察和感知当中学习的，如果计算机可以观察和感知，这是否可以帮助解决更复杂的问题？

可否解释一下增强学习技术？

但你仍然可以分为很多步骤，如当你在现磨一杯咖啡时，你就会学习到如果没有在咖啡豆被冲泡之前把它们磨碎就会做出来一杯糟糕的咖啡。

谷歌是否将增强学习应用在核心搜索产品中？

增强学习更适用于哪些任务？

如何判断用户在搜索中不喜欢某一个结果？

将研究成果应用于用户每天使用的产品时，有哪些比较大的挑战？

相关文章

文章推荐

Dean丨谷歌战神谈增强学习和无监督学习专访 Jeff (谷live)