详解全新大数据分析 英特尔戴金权 Zoo AI平台Analytics (大数据新概念陷阱)

雷锋网按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了深圳市宝安区政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会,旨在打造国内人工智能领域最具实力的跨界交流合作平台。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

在大会第一天的“AI前沿”主会场,英特尔高级首席工程师、大数据技术全球CTO戴金权带来了题为“大数据分析+人工智能”的演讲。 英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

戴金权负责领导英特尔全球(位于硅谷和上海)的工程团队在高级大数据分析(包括分布式机器学习和深度学习)上的研发工作,他带领团队一手研发了基于Apache Spark 框架的分布式深度学习库 BigDL,在这次演讲中,他还着重介绍了一个新产品:Analytics Zoo。会后,雷锋网就BigDL和Analytics Zoo对戴金权进行了专访。

英特尔AI软件工具图谱

近一年来,英特尔反复提到的“人工智能全栈解决方案”是其人工智能战略布局的最好诠释。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

戴金权介绍到,英特尔一直致力于提供一个完整的端到端的全栈人工智能解决方案,从终端设备端到网络,再到数据中心的云端。

这一套解决方案的底层技术包括了至强可扩展处理器、NNP芯片、FPGA、网络以及存储技术,其上则是各种数据库、人工智能平台和具体的体验。

此次,戴金权更为详细地解释了英特尔的人工智能软件层。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

在基础层,有英特尔针对机器学习优化的英特尔发行版Python、优化的DAAL的发行版、MKL-DNN和clDNN神经网络函数的优化库、开源的nGraph编译器等;在库这一层,有机器学习库的优化、TensorFlow/MXNet/Caffe/BigDL等的优化,再到工具包这一层,有开源视觉推断和神经网络优化工具包OpenVINO、VPU上的优化推断开发的英特尔Movidius SDK、CPU上的认知解决方案英特尔Saffron AI。这些端到端的解决方案可以帮助开发者更快速地开发AI应用。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

戴金权一直致力于大数据分析,开发出基于Spark的分布式深度学习框架BigDL和Analytics Zoo,让更多的大数据用户、数据工程师、数据科学家、数据分析师能够更好地在大数据的平台上使用人工智能技术。

BigDL是将英特尔大数据平台与人工智能结合的产物,为什么要做这样的结合呢?

戴金权介绍了三个趋势。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第一个趋势,今天深度学习的发展很大程度上是由于数据规模来推动的。由下图可见,随着横坐标数据规模的增长,纵坐标显示的神经网络模型就越有效,越准确。任何深度学习的系统、框架、应用都要能够处理大规模的数据。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第二个趋势是业界大数据的发展,不管是互联网公司还是传统企业,大家都以Apache Hadoop建立起数据平台,这个平台聚集大家处理过的和未处理的数据,从而你能够将各种数据的处理、分析和应用,应用到这个平台上。从这个意义上说,任何数据处理和分析的框架、应用,包括深度学习的应用,都要能够非常好地和Apache Hadoop为标准的数据平台交互。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第三个趋势,深度学习的模型只是整个流程的一部分,要构建和应用深度学习模型,还有数据的导入、数据清洗、特征提取、对整个集群的资源的管理和各个应用之间对这个资源的共享等,这些工作事实上占据了机器学习或者深度学习这样一个工业级应用开发的大部分的时间和资源。所以,数据处理、机器学习,以及算法必须很好地和现有的大数据处理的工作流整合在一起。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

戴金权深刻感觉到,在大数据处理工作和深度学习模型算法之间有很大的断层。深度学习顶尖研究人员不断在突破模型,但是数据科学家、分析师、普通用户却很难将模型应用到现实的生产环境当中去。深度学习处理的一大瓶颈就是数据,特别是生产数据,都是采用分布式存储,很难将其拷贝到另一个环境再来进行处理。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

在戴金权看来,Apache Spark是业界最广泛应用的分布式集群计算引擎,它里面有大量的对数据分析处理的组件,比如说SQL的处理、实时流的处理,还有进行图分析的库。

基于Spark推出的BigDL是Spark上标准的库、标准的组件,能够和这些大数据、生态系统里面的不同的分析、处理的组件非常好地整合在一起。BigDL与目前主流的深度学习框架Caffe、Torch、TensorFlow所能实现的功能相同。虽然市面上已经有主流的深度学习框架,英特尔推出BigDL则是因为看到了将大数据分析与人工智能结合起来的一个空白点。BigDL可以直接在现有的Hadoop和Spark的集群上运行,不需要对集群做任何修改。

戴金权告诉雷锋网:“我们看到有另外一个很重要的应用场景,没有被这些现有的框架所覆盖到,我们有大量spark用户,从2007年开始开源开发,十年间已经成为了业内数据存储处理分析的标准,大家都已经建立了大数据集群,上面有大量的数据,集群可能几千台,互联网公司可能几万台这样的规模。

为了深度学习和人工智能应用,难道是要把这套大数据集群完全抛弃,再另外建一套新的系统吗?我觉得其实并不是一个最合理的路径,从某种意义上来说,应该在你现有的大数据的平台,大数据的集群上面,能够将新的深度学习、人工智能的技术,能够加进来。”

Analytics Zoo

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

自2017年1月英特尔开源BigDL起,已经有广泛的合作案例。在去年年中,戴金权的团队在Apache Spark和BigDL的基础上又构建了Analytics Zoo大数据分析和人工智能的平台。

差不多是在BigDL开源半年后,戴金权开始着手Analytics Zoo的构建。他谈到,在跟很多客户合作BigDL时,他感到,BigDL、Tensorflow这些框架里最终的AI应用还是有很长的距离。

应用开发本身是非常复杂的工作流水线,戴金权思考如何才能提供像Spark上的Streaming这样很方便地对特征进行处理的流水线,提供内置的模型、特征工程操作、迁移学习的流水线的支持。Analytics Zoo正是这样一个更高级别的数据分析+AI平台,能够利用Spark的各种流水线、内置模型、特征操作等,方便用户构建深度学习端到端应用。

某种意义上它是Spark和BigDL的扩充,它的目的是方便用户开发基于大数据端到端学习的应用,除了内置的模型、内置的一些非常简单的操作之外,它里面还提供了大量的高级的流水线的支持,能够使用Spark> 英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第一个例子是英特尔与京东展开的合作。京东有大概几亿张的图片存储在分布式存储系统当中,他们想要把这几亿张图片从大数据系统里面读出来,然后对它进行处理。在这个案例中,用了SSD的模型来试图识别图片里面有什么物品,探后再用DeepBit的模型,将物品的特征提取出来。原来京东已经在GPU卡上做了一些应用,但是这里面有一些问题,包括如何处理端到端数据的流水线,包括如何提高端到端处理的效率。戴金权介绍到,“当我们把整个处理的应用迁移到Spark和BigDL平台上,可以看到它提升了很多的运维的效率,使用BigDL/Spark在Intel Xeon(英特尔至强可扩展处理器)集群有效扩展,取得相对于GPU集群3.8倍性能提升。”

AI的三个核心点在大数据、算法、算力,现在很多人认为要有足够的AI算力,非GPU不可。京东的这个案例体现了BigDL与英特尔至强可扩展处理器配合,对整体深度学习表现的提升。戴金权告诉雷锋网,京东这个案例一开始是建立在多个GPU之上的,他们的团队在Caffe上训练,在开发、部署、性能方面都碰到问题。英特尔将京东方面迁移到Spark上面,跑在1200个逻辑的核,一台服务器支持50个逻辑,大致用了24台服务器,利用Spark这样的端到端流水线处理,与之前用GPU的方案相比可以达到差不多3.8倍的性能提升。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第二个案例是英特尔和MLSListings合作的案例,他们是加州的不动产交易商,他们可以识别用户浏览的房屋图片,为用户推荐相似的房屋。这套系统构建在Microsoft Azure上。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第三个案例是和世界银行在AWS上合作。世界银行通过志愿者上传的世界各地的食物图片,帮助大家来分析在世界各地的物价水平。其中如何通过大数据处理对图片进行清洗、处理,再用迁移学习来构建图片分类模型是值得关注的问题。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第四个案例是与UCSF的合作,通过3D的模型对医疗图象进行分类,首先对3D的MRI照片进行识别,然后对它进行分类,可以试图诊断膝盖上面的一些病症。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第五个案例是们和Cray公司(美国做超级电脑的公司)合作。合作内容是做近期的降水云图的预测,通过Seq2Seq的模型,把过去一小时的卫星云图做了一个序列,输入到模型里面,能帮预测下一个小时每10分钟这个卫星云图的变化,通过这个来进行一些降水的分析。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

第六个案例是和GigaSpaces合作的通过基于自然语言处理对呼叫中心进行管理。当有用户打电话进来,把其语音转成文本以后,导入到BigDL系统里面,然后对它进行实时的流式处理,使用BigDL上的文本分类模型可以知道用户打电话进来是为什么,他是Windows出了问题还是Mac出了问题,自动就会把呼叫中心的电话录入到不同的部门。

英特尔戴金权:详解全新大数据分析+AI平台Analytics Zoo | CCF-GAIR 2018

最后,戴金权总结到,英特尔致力于端到端全栈人工智能解决方案。BigDL和Anaylitics Zoo致力于架起大数据和人工智能之间的桥梁,当用户已有基于Apache的大数据集群,就可以很方便地进行大数据分析和上人工智能应用,不仅能够有更高的资源利用率,还可以提升端到端的开发效率,以及提升部署效率。

英特尔AI事业部三位负责人讲解:AI技术如何落地应用

发布新一代NNP芯片外,英特尔AI软件和应用更透露其AI野心

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/25b8edcf9d7ebc2a468f.html
全局中部横幅
全局中部横幅
多个地点Ping服务器,网站测速

通过该工具可以多个地点Ping服务器以检测服务器响应速度。

新课标第一网

提供课件,免费课件,试题,教案下载

上海防火门厂家

上海鎏铖科技有限公司主要从事防火门,金属门框,矿物门芯,防火纤维水泥板,膨胀密封条,阻燃防潮密度板等产品销售,帮助了众多客户通过了国内国际防火测试.产品质量优异,防火性能好,价格合理,产品型号规格全,厂家直发,欢迎来电详谈18616658007.

中国消费网

中国消费网是中国消费领域最大的综合服务性网站,同时也是中国最大的在线投诉受理平台。

快递网站导航大全

LOL网址导航网是专业的上网导航网站,精心收录各类优质热门网站信息,同时提供天气、快递、违章等各种生活便民查询工具网址,为您提供安全便捷的上网导航服务,现已被众多网友设为上网主页,网址导航大全首选LOL网址导航.

团购网站导航大全

LOL网址导航网是专业的上网导航网站,精心收录各类优质热门网站信息,同时提供天气、快递、违章等各种生活便民查询工具网址,为您提供安全便捷的上网导航服务,现已被众多网友设为上网主页,网址导航大全首选LOL网址导航.

六盘水人才网

六盘水人才招聘网是六盘水在线求职招聘平台,提供人才求职,企业招聘,名企及国企招聘公告发布平台。致力于打造具有影响力的六盘水人才网和六盘水人才市场,六盘水招聘找工作,就上六盘水人才网!

网易企业邮箱代理商

企业邮箱特价买三年送三年,买5年送5年,注册申请电话4000-789-168,现在申请购买网易企业邮箱还有更多精美礼品赠送、 网易企业邮箱购买另享5折优惠、iPhone、iPad、购物卡拿到手软,赶快找我们领取您的专属优惠吧,还可免费试用哦,不满意不付款 号外:如果目前使用的企业邮箱不好用,需要升级企业邮箱,都可以找我们更换网易企业邮箱,原邮箱的数据我们可以免费迁移

峨眉电影集团有限公司

峨眉电影集团为国家七大电影集团之一、西南地区最大的影视产业集团,于2003年经国家广播电影电视总局批准组建,是按照四川省委、省政府关于整合四川电影制片、发行、放映、播出资源要求,以峨眉电影制片厂、四川省电影公司、峨眉电影频道等国有资产为纽带,以影视产品的制作、生产、发行、放映、播出业务为依托组建的产业链条完整的电影集团。

上海华渑进出口有限公司

上海华渑进出口有限公司是一家集特种光源的出口和经销进口UV光源国内销售的综合企业,美国和欧洲UV灯管的一级经销商,凭借其与美国UV灯管制造商的多年合作关系,以其优良产品性能和价格优势,公司致力于为中国电路板制造和印刷企业提供高质量、高安全的UV灯管,同时公司也携手中国光伏制造企业为中国新型能源的发展提供完善的配套产品。专业进口UV灯供应商紫外灯,紫外固化灯,水处理UV灯,印刷UV灯供应

大海森

唐山海森电子股份有限公司主要从事水田智能灌溉控制系统的设计、水资源远程测控管理系统、农田水肥墒药一体化自动化灌溉控制系统、农田机井灌溉控制器、智能大棚自动控制系统的研发、生产、销售、管护,公司从成立之初就确定了“创新引领、客户体验为王”的行业服务理念,全力打造成为农业投建管服一站式服务商,是中国水交所8个创始会员之一,合同节水联盟副理事长单位,水利部华北6省农业水价综合改革定点观摩培训示范基地。

安平县宏达拔丝设备厂

安平县宏达拔丝设备厂建于1995年,座落于**丝网生产基地,**丝网之乡“安平”,交通十分便利。我们是一家拥有机械设备,雄厚的技术力量,是从事冷轧带肋钢筋设备,冷轧带肋钢筋生产线机械设计与制造的**厂家。


全局底部横幅