详解全新大数据分析 英特尔戴金权 Zoo AI平台Analytics (大数据新概念陷阱)

雷锋网按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了深圳市宝安区政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会,旨在打造国内人工智能领域最具实力的跨界交流合作平台。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

在大会第一天的“AI前沿”主会场,英特尔高级首席工程师、大数据技术全球CTO戴金权带来了题为“大数据分析+人工智能”的演讲。 英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

戴金权负责领导英特尔全球(位于硅谷和上海)的工程团队在高级大数据分析(包括分布式机器学习和深度学习)上的研发工作,他带领团队一手研发了基于Apache Spark 框架的分布式深度学习库 BigDL,在这次演讲中,他还着重介绍了一个新产品:Analytics Zoo。会后,雷锋网就BigDL和Analytics Zoo对戴金权进行了专访。

英特尔AI软件工具图谱

近一年来,英特尔反复提到的“人工智能全栈解决方案”是其人工智能战略布局的最好诠释。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

戴金权介绍到,英特尔一直致力于提供一个完整的端到端的全栈人工智能解决方案,从终端设备端到网络,再到数据中心的云端。

这一套解决方案的底层技术包括了至强可扩展处理器、NNP芯片、FPGA、网络以及存储技术,其上则是各种数据库、人工智能平台和具体的体验。

此次,戴金权更为详细地解释了英特尔的人工智能软件层。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

在基础层,有英特尔针对机器学习优化的英特尔发行版Python、优化的DAAL的发行版、MKL-DNN和clDNN神经网络函数的优化库、开源的nGraph编译器等;在库这一层,有机器学习库的优化、TensorFlow/MXNet/Caffe/BigDL等的优化,再到工具包这一层,有开源视觉推断和神经网络优化工具包OpenVINO、VPU上的优化推断开发的英特尔Movidius SDK、CPU上的认知解决方案英特尔Saffron AI。这些端到端的解决方案可以帮助开发者更快速地开发AI应用。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

戴金权一直致力于大数据分析,开发出基于Spark的分布式深度学习框架BigDL和Analytics Zoo,让更多的大数据用户、数据工程师、数据科学家、数据分析师能够更好地在大数据的平台上使用人工智能技术。

BigDL是将英特尔大数据平台与人工智能结合的产物,为什么要做这样的结合呢?

戴金权介绍了三个趋势。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第一个趋势,今天深度学习的发展很大程度上是由于数据规模来推动的。由下图可见,随着横坐标数据规模的增长,纵坐标显示的神经网络模型就越有效,越准确。任何深度学习的系统、框架、应用都要能够处理大规模的数据。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第二个趋势是业界大数据的发展,不管是互联网公司还是传统企业,大家都以Apache Hadoop建立起数据平台,这个平台聚集大家处理过的和未处理的数据,从而你能够将各种数据的处理、分析和应用,应用到这个平台上。从这个意义上说,任何数据处理和分析的框架、应用,包括深度学习的应用,都要能够非常好地和Apache Hadoop为标准的数据平台交互。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第三个趋势,深度学习的模型只是整个流程的一部分,要构建和应用深度学习模型,还有数据的导入、数据清洗、特征提取、对整个集群的资源的管理和各个应用之间对这个资源的共享等,这些工作事实上占据了机器学习或者深度学习这样一个工业级应用开发的大部分的时间和资源。所以,数据处理、机器学习,以及算法必须很好地和现有的大数据处理的工作流整合在一起。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

戴金权深刻感觉到,在大数据处理工作和深度学习模型算法之间有很大的断层。深度学习顶尖研究人员不断在突破模型,但是数据科学家、分析师、普通用户却很难将模型应用到现实的生产环境当中去。深度学习处理的一大瓶颈就是数据,特别是生产数据,都是采用分布式存储,很难将其拷贝到另一个环境再来进行处理。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

在戴金权看来,Apache Spark是业界最广泛应用的分布式集群计算引擎,它里面有大量的对数据分析处理的组件,比如说SQL的处理、实时流的处理,还有进行图分析的库。

基于Spark推出的BigDL是Spark上标准的库、标准的组件,能够和这些大数据、生态系统里面的不同的分析、处理的组件非常好地整合在一起。BigDL与目前主流的深度学习框架Caffe、Torch、TensorFlow所能实现的功能相同。虽然市面上已经有主流的深度学习框架,英特尔推出BigDL则是因为看到了将大数据分析与人工智能结合起来的一个空白点。BigDL可以直接在现有的Hadoop和Spark的集群上运行,不需要对集群做任何修改。

戴金权告诉雷锋网:“我们看到有另外一个很重要的应用场景,没有被这些现有的框架所覆盖到,我们有大量spark用户,从2007年开始开源开发,十年间已经成为了业内数据存储处理分析的标准,大家都已经建立了大数据集群,上面有大量的数据,集群可能几千台,互联网公司可能几万台这样的规模。

为了深度学习和人工智能应用,难道是要把这套大数据集群完全抛弃,再另外建一套新的系统吗?我觉得其实并不是一个最合理的路径,从某种意义上来说,应该在你现有的大数据的平台,大数据的集群上面,能够将新的深度学习、人工智能的技术,能够加进来。”

Analytics Zoo

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

自2017年1月英特尔开源BigDL起,已经有广泛的合作案例。在去年年中,戴金权的团队在Apache Spark和BigDL的基础上又构建了Analytics Zoo大数据分析和人工智能的平台。

差不多是在BigDL开源半年后,戴金权开始着手Analytics Zoo的构建。他谈到,在跟很多客户合作BigDL时,他感到,BigDL、Tensorflow这些框架里最终的AI应用还是有很长的距离。

应用开发本身是非常复杂的工作流水线,戴金权思考如何才能提供像Spark上的Streaming这样很方便地对特征进行处理的流水线,提供内置的模型、特征工程操作、迁移学习的流水线的支持。Analytics Zoo正是这样一个更高级别的数据分析+AI平台,能够利用Spark的各种流水线、内置模型、特征操作等,方便用户构建深度学习端到端应用。

某种意义上它是Spark和BigDL的扩充,它的目的是方便用户开发基于大数据端到端学习的应用,除了内置的模型、内置的一些非常简单的操作之外,它里面还提供了大量的高级的流水线的支持,能够使用Spark> 英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第一个例子是英特尔与京东展开的合作。京东有大概几亿张的图片存储在分布式存储系统当中,他们想要把这几亿张图片从大数据系统里面读出来,然后对它进行处理。在这个案例中,用了SSD的模型来试图识别图片里面有什么物品,探后再用Deepbit的模型,将物品的特征提取出来。原来京东已经在GPU卡上做了一些应用,但是这里面有一些问题,包括如何处理端到端数据的流水线,包括如何提高端到端处理的效率。戴金权介绍到,“当我们把整个处理的应用迁移到Spark和BigDL平台上,可以看到它提升了很多的运维的效率,使用BigDL/Spark在Intel Xeon(英特尔至强可扩展处理器)集群有效扩展,取得相对于GPU集群3.8倍性能提升。”

AI的三个核心点在大数据、算法、算力,现在很多人认为要有足够的AI算力,非GPU不可。京东的这个案例体现了BigDL与英特尔至强可扩展处理器配合,对整体深度学习表现的提升。戴金权告诉雷锋网,京东这个案例一开始是建立在多个GPU之上的,他们的团队在Caffe上训练,在开发、部署、性能方面都碰到问题。英特尔将京东方面迁移到Spark上面,跑在1200个逻辑的核,一台服务器支持50个逻辑,大致用了24台服务器,利用Spark这样的端到端流水线处理,与之前用GPU的方案相比可以达到差不多3.8倍的性能提升。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第二个案例是英特尔和MLSListings合作的案例,他们是加州的不动产交易商,他们可以识别用户浏览的房屋图片,为用户推荐相似的房屋。这套系统构建在microsoft Azure上。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第三个案例是和世界银行在AWS上合作。世界银行通过志愿者上传的世界各地的食物图片,帮助大家来分析在世界各地的物价水平。其中如何通过大数据处理对图片进行清洗、处理,再用迁移学习来构建图片分类模型是值得关注的问题。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第四个案例是与UCSF的合作,通过3D的模型对医疗图象进行分类,首先对3D的MRI照片进行识别,然后对它进行分类,可以试图诊断膝盖上面的一些病症。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第五个案例是们和Cray公司(美国做超级电脑的公司)合作。合作内容是做近期的降水云图的预测,通过Seq2Seq的模型,把过去一小时的卫星云图做了一个序列,输入到模型里面,能帮预测下一个小时每10分钟这个卫星云图的变化,通过这个来进行一些降水的分析。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第六个案例是和GigaSpaces合作的通过基于自然语言处理对呼叫中心进行管理。当有用户打电话进来,把其语音转成文本以后,导入到BigDL系统里面,然后对它进行实时的流式处理,使用BigDL上的文本分类模型可以知道用户打电话进来是为什么,他是Windows出了问题还是Mac出了问题,自动就会把呼叫中心的电话录入到不同的部门。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

最后,戴金权总结到,英特尔致力于端到端全栈人工智能解决方案。BigDL和Anaylitics Zoo致力于架起大数据和人工智能之间的桥梁,当用户已有基于Apache的大数据集群,就可以很方便地进行大数据分析和上人工智能应用,不仅能够有更高的资源利用率,还可以提升端到端的开发效率,以及提升部署效率。

英特尔AI事业部三位负责人讲解:AI技术如何落地应用

发布新一代NNP芯片外,英特尔AI软件和应用更透露其AI野心

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/25b8edcf9d7ebc2a468f.html
全局中部横幅
全局中部横幅
新航道

新航道国际教育集团—中国英语培训,提供雅思、托福、SAT、AP出国考试培训、留学中介服务,外教口语、剑桥青少、个性化学习、在线网校、冬夏令营、国际游学

花伴时光

花伴时光网站致力于打造一个花卉养护的知识宝库。在这里,您可以深入了解丰富多样的花卉品种,学习实用的养护技巧,掌握花卉繁殖的奥秘,与众多花友一起分享花卉带来的美好与乐趣。

球磨机

郑州中嘉重工有限公司郑州中嘉重工有限公司长期致力于破碎机,球磨机,振动筛,回转窑等矿山机械设备制造,我厂与多家设计院长期合作坚持以“质量至上,用户至上”为宗旨,可为用户提供项目设计、矿石鉴定、小试、中试设备选型、工艺流程设计、设备现场安装调试等一条龙服务。

220kv多棱型钢管杆

锦州市电力线路器材有限公司从事20kv多棱型钢管杆,电力角钢塔,电力金具铁附件,钢管杆,500kv电力金具,750kv输电线路铁塔,是一家电力金具厂家,工厂设有角钢数控加工车间等。拥有生产、检测、调度设备二百四十余台(套)。

铂尊门窗

超静音门窗-中国十大铝合金门窗品牌-铂尊门窗专业从事四川、成都铝合金门窗招商加盟及中高端系列产品研发、生产、销售与服务为一体的四川门窗十大品牌、钛合金门窗加盟品牌综合型企业。以提供“安全、优质的门窗产品于客户”为己任,为广大客户提供环保的家居体现。四川门窗哪个品牌好、十大铝合金门窗品牌、铝合金门窗招商加盟热线电话:0838-5887818

上海物流运输公司

上海普畅物流有限公司是行业具有实力的物流运输,货物运输,大件运输公司.我司配有齐全的运输车队,收费合理,全程提供透明化物流运输服务,按时送达,物流效率高,值得托付.如有货运,大件输运需求,请您来电咨询:16601900888.

徐州威马机械有限公司

徐州威马机械有限公司,冷再生机,高品质冷再生机

首页

网龙普天教育成立于2017年,注册资金1亿元,是网龙网络公司(香港交易所股份代号:777)旗下VR/AR教育业务子品牌。作为VR/AR职业教育的主要参与者,网龙普天致力于构建全球最大的VR/AR职业教育内容开发人才与优秀资源平台。

星卓生活园分享生活常识

星卓生活园分享生活常识、生活百科知识等内容

云南木箱,昆明木托盘,昆明木包装箱厂家,昆明朝释木材加工有限公司[官网]

昆明朝释木材加工有限公司(13888271136)专业从事云南木箱,昆明木托盘,昆明木包装箱,楚雄木箱,大理木箱,昭通木箱,大理托盘,楚雄托盘,昭通托盘以及井字架的生产,销售和安装,主要以木制品的加工为主,物资供销,搬运装卸为辅,有多年的木箱,木托盘,井字架的生产销售安装经验,欢迎来电咨询!

江苏江豪发电机组有限公司

江苏江豪发电机组生产厂商是专业的发电机厂家和柴油发电机组厂家,生产与销售发电机产品有玉柴发电机组,康明斯发电机组,沃尔沃发电机组,帕金斯发电机组,上柴,国产,进口,潍坊,上海,静音发电机,柴油发电机组价格优惠公道!欢迎咨询!

羊毛VIP网

羊毛VIP网 每天更新各种技术教程,最新活动,以及各种好玩的软件,电脑技巧以及流行的网络技术,易语言源码等....励志于打造一个全网的技术汇聚平台!记得每天都访问一下我们的网站,喜欢本站的朋友可以收藏一下!

全局底部横幅