Dean丨谷歌战神谈增强学习和无监督学习 专访 Jeff (谷live)

文章编号:46090 资讯动态 2024-12-09 dean 无监督学习 增强学习 jeff

专访 Jeff Dean丨谷歌战神谈增强学习和

编者按:近日,谷歌大脑负责人 Jeff Dean 在接受 Fortune 杂志采访时讲述了他对无监督学习和增强学习在人工智能领域应用的看法,雷锋网进行编译。

下一次你在使用谷歌搜索引擎或者使用地图导航的时候,你需要记住他们背后有一个很大的大脑为你提供搜索结果,并确保你不会迷路。

当然,它并不是一个真正的大脑,而是谷歌大脑研究团队。《财富》杂志的 Roger Parloff 写到:

研究人员推动人工智能面临的挑战是什么?

无监督学习的不成熟。人类的学习方式可以看作是一种无监督学习,即你只需观察你周围的世界并理解事物的运行方式来丰富你的认知,无监督学习是机器学习非常热门的一个分支,但是它还未达到监督学习能解决任务的那个程度。

无监督学习是指如何从观察和感知当中学习的,如果计算机可以观察和感知,这是否可以帮助解决更复杂的问题?

没错,人的视觉主要通过无监督学习的方式获得训练。当你还是一个孩子的时候,你在观察世界时,有时你会得到一个监督的信号:比如有人说“这是一只长颈鹿”或者“这是一辆车”的时候,这些少量的监督数据就是你的心理模型对自然的回应,从而完成你对世界的认知。

我们需要更多地结合监督和无监督学习,就我们大多数机器学习的系统工作方式而言,我们还未真正到达那一步。

可否解释一下增强学习技术?

增强学习背后的逻辑是你未必需要明确你要采取的行动,你只要试探性地做一个你认为不错的行动,然后观察“世界”会有怎样的反应。如同下棋一样,你可根据你对手的行动来进行反应。最终在整个序列行为后得到奖赏信号。

增强学习是在你得到奖赏信号的同时,能将“信任”或“过失”分配到你。它在今天的某些领域非常有效。

当你所执行的任务状态非常宽泛时,此时使用强化学习就会遇到一些挑战。在现实世界中的某个固定时刻操作一个事项涉及到的执行范围可能非常广泛。而在棋盘游戏当中,你走的每一步棋都限定在一定的范围内,而且游戏规也会对你进行限制,这使得其奖赏信号的逻辑非常简单:要么赢,要么输。

如果我的任务是磨一杯咖啡或者其他,整个过程我也许需要采取一系列的动作,而且没有固定的评判标准,那么这个奖赏信号就不是那么清晰。

但你仍然可以分为很多步骤,如当你在现磨一杯咖啡时,你就会学习到如果没有在咖啡豆被冲泡之前把它们磨碎就会做出来一杯糟糕的咖啡。

对,我认为增强学习核心地方就是它需要探索。这种探索在物理环境当中使用有点困难。我们开始尝试把它应用在计算机当中,当机器人采取一系列行动时,它会被限制在一个指定时间中只可以采取有限数量动作的集合。然而在计算机模拟中,它更容易使用大量的计算机资源,并得到一百万个样本。

谷歌是否将增强学习应用在核心搜索产品中?

我们主要通过 DeepMind 和我们的数据中心操作人员之间的合作来将增强学习应用在核心产品中。它们使用强化学习来设置数据中心内的空调旋钮,并实现相同的、安全的冷却操作和操作条件,大幅降低能耗。他们能够发现哪些旋钮的设置可以起到一定的作用,以及当你以不同的方式转动旋钮时,它们会如何反应。

通过增强学习,可以发现这 18 个旋钮的设置,或者更多旋钮并未被操作人员考虑进去。了解这个系统的人会这样说:这真是一个奇怪的系统。但是事实证明,它们运行得确实不错。

增强学习更适用于哪些任务?

数据中心运行良好因为你一次需要执行的不同操作并不多。正像 18 个旋钮,你在那里可以上下旋转它们。这样结果是可以计算出来的。假设你在适当的、可接受的温度范围内工作,你就会得到一个让能耗降低的奖赏操作。从这个角度看,这差不多是一个理想的增强学习问题。

一个更具挑战性的强化学习案例是试图用它来决定我该显示什么样的搜索结果。这有一个更广泛的搜索结果集,我可以展示出不同查询的反应,并且奖赏信号本身就是一种小范围的噪音。就像用户看一个搜索结果,喜欢和不喜欢表现地不是那么明显。

如何判断用户在搜索中不喜欢某一个结果?

这的确是一个很难解决的问题。由于强化学习可能还不够成熟,以至于在一些极度无约束的环境中,奖赏信号还不是那么明显。

将研究成果应用于用户每天使用的产品时,有哪些比较大的挑战?

这里面其中一项就是,很多机器学习问题的解决方案和我们对这些解决方案的研究可以在不同的领域中重复使用:我们与地图团队合作了一些研究,他们想要读取出现街头所有店铺和 Logo,从而更好地了解世界,比如确定这里是披萨店还是其他。

为了在图像中找到文本,你可以训练一个机器学习模型,并给它一些样本,比如人们在文本周围画一个圆圈或者方框。实际上,你可以用它来训练模型去检测哪些图像中包含文本。

这是一个普遍适用的功能,地图团队中的不同部门可以重复使用以上模型来完成卫星图像分析任务,比如在美国境内或者世界范围内找到一个屋顶或者估计在屋顶上的太阳能电池板的安装位置。

随后我们发现,相同类型的模型可协助我们解决医疗成像的初步工作。现在你有了医学图像,你可以试图找到那些与临床相关图像的有趣部分。

原创文章,未经授权禁止转载。详情见 转载须知 。

专访 Jeff Dean丨谷歌战神谈增强学习和


本文地址: https://www.gpxz.com/article/e1906bc9f608d90b5597.html
全局中部横幅
全局中部横幅
SIGEP

SIGEPChina深圳国际手工冰淇淋、烘焙及咖啡展览会,2023年落户深圳!是全球领先致力于甜品烘焙和咖啡餐饮业的B2B展会,被誉为欧洲最大的烘焙咖啡行业盛会!是整个行业创新的参考点,提供了所有新市场发展的完整概览:烘焙、巧克力、西点、冰淇淋、咖啡板块相互连接.提供了一个360度的甜点和咖啡世界。

东莞律师事务所

沃土律所团队熟悉本地司法,具有扎实的法律理论基础,工作态度严谨、认真,案件胜诉率高。办理过大量各类案件,积累了丰富的诉讼和非诉讼业务实践经验。为你提供优秀的东莞律师顾问服务,东莞民事诉讼律师服务,东莞刑事律师辩护业务,提供免费法律咨询,擅长办理公司法务、合同纠纷、经济纠纷、婚姻家庭、债权债务、商标专利、劳动工伤、交通事故、房地产和建筑工程纠纷、刑事辩护等法律业务。

江苏新扬子造船有限公司

集团公司下辖江苏新扬子造船有限公司、江苏扬子鑫福造船有限公司、江苏扬子三井造船有限公司及江苏扬子江船厂有限公司4家造船企业,分布于长江下游江苏省境内的靖江市、泰兴市和太仓市的黄金水道两岸,距上海、南京两大城市均170公里。集团在上海还拥有两家船舶设计公司。集团目前总资产超过700亿人民币,占地面积500万平方米,码头岸线7000余米,职工6000余名。

顿之升网络

顿之升网络-高端网站建设-河南顿之升网络科技有限公司

坏坏情感

坏坏情感是男女恋情百科知识分享网站,帮助您解决情感关系中的恋爱问题、经营爱情、情感矛盾、挽回恋情等内容,挽回男女双方因矛盾破裂的感情。坏坏情感,让更多情侣简单的经营爱情与解决矛盾。

安陆市昌明粮食机械股份有限公司

安陆市昌明粮食机械股份有限公司是国内集粮机的研发、生产、销售于一体的主要骨干企业之一。单机品种涵盖清理、去石机系列;谷糙分离筛系列;白米分级筛系列;低温碾米机系列;大米抛光机系列;提升机系列以及日产20~200T系列成套碾米设备。

交通百科网

交通百科网:包含了轨道交通、城市轨道、机场地铁、线路规划等行业资讯

消费最前线

消费最前线(原锦鲤财经)是一家专注于商业消费领域的新媒体。专注于推动行业发展,为用户提供最前沿、最时尚、最实用的资讯和报道,打造最专业的消费产业动态交流原创平台,展现个体创业与品牌的融合之美。

地宝网(tiboo.cn)

地宝网(www.tiboo.cn)是一个专门提供南昌本地生活、消费信息和情感交流的网上生活家园。专注南昌城市百姓生活,让百姓享受时尚生活乐趣。

通过式抛丸机,抛丸清理机价格,抛丸机厂家,悬链式抛丸机,滚筒式抛丸机

专业生产:履带式抛丸机,吊钩式抛丸机,通过式抛丸机,滚筒式抛丸机,悬链式抛丸机,台车式抛丸机等生产厂家。

全局底部横幅