自动化机器学习将成为下一个AI研究主流 听听数据科学家怎么说 (自动化机器学什么的)

自动化机器学习将成为下一个AI研究主流?听听数据科学家怎么说

雷锋网按:在过去的一年当中,自动化机器学习已经成为一个众人感兴趣的话题。KDnuggets举办了一个关于该话题的博客大赛。结果喜人,有很多有意思的想法与项目被提出来了。一些自动化学习工具也引起了大家的兴趣,受到了大家的追捧。

什么是自动化机器学习呢?

接下来我们要探讨的是自动化机器学习属于哪一类科学,以及它不属于哪一类科学。

自动化机器学习并不属于自动化数据科学。毫无疑问的是它与自动化数据科学有重复的部分。尽管如此,机器学习只是数据科学工具包中的一个工具。它无法对所有的数据科学任务起作用。例如,机器学习虽然适用于预测性的数据科学任务。但它并不适用于描述性分析的数据科学任务。

即使是那些预测性的数据科学任务,也不仅仅只包含预测。我们对自动化机器学习与自动化数据科学会产生了混淆,对此,数据科学家Sandro Saitta认为:

他是完全正确的,不仅仅是词义的问题。假如你想要对机器学习与数据科学有一个更加清晰的认识,那就读读这个。

此外,数据科学家、自动化机器学习的领军人物Randy Olson认为我们要想得到高效的机器学习设计方案,我们必须做到以下几点:

假如我们将以上所说的东西都考虑进去,那么我们可以认为自动化机器学习的任务是选择算法、超参调整、迭代建模以及模型评价,这样的话,我们就可以以此来定义自动化机器学习了。自动化机器学习的定义是多种多样的(对比一下数据科学,当你向十个人询问什么是数据科学的时候,你会得到是十一种不同的回答。),但是我们却可以说,这开了个好头儿。

尽管我们知道了自动化机器学习的概念,自动化机器学习对我们可能有好处,但是我们仍需要知道为什么机器学习会很难。

AI研究人员、斯坦福大学博士生S. Zayd Enam最近写了一篇奇特的博客,博客的标题是《为什么机器学习这么“硬”?》,在这篇文章中,他写道(注意粗体字):

自动化机器学习将成为下一个AI研究主流?听听数据科学家怎么说

请注意,尽管Enam主要提及的是机器学习的研究,但是他也提到了现成的算法在用例中的实现(见粗体字)。

紧接着Enam详细阐述了机器学习的难题,并着重叙述了算法的特性(见粗体字):

Enam紧接着从算法研究层面阐述了框架问题。再次强调下,他所说的是应用算法。假如一个算法不起作用,或者性能不是很好,那么我们就需要对算法进行迭代,即再选择与再定义。这就产生了自动化,因此也就有了自动化算法。

我以前对于自动化机器学习算法本质的理解是这样的:

很简单,对不对?

对自动化机器学习工具进行比较

现在我们知道了自动化机器学习到底是什么了,以及我们要用它的原因。那我们我们该如何才能创造出一个自动化机器学习模型来?接下来要讲解的是两个自动机器学习工具包的概述,以及二者之间比较。这些工具包是使用python编写而成的。这两个工具使用不同的方式来达到相同的目的,也就是是机器学习过程的自动化。

Auto-sklearn是自动化机器学习的工具包,我们用它来替换scikit-learn中的estimator。在最近由KDnuggets举办的机器学习博客大赛中,它取得了冠军头衔。

自动化机器学习将成为下一个AI研究主流?听听数据科学家怎么说

auto-sklearn使机器学习的使用者可以很轻松的进行算法选择以及超参数的调整。它的优势就是在于使用贝叶斯优化、元数据学习以及集合建设。要想了解更多关于auto-sklearn的背后技术,你可以阅读这篇2015年发表在NIPS论文。

上面的信息是摘自项目的文档说明,Auto-sklearn可以通过贝叶斯优化方式将超参数最优化,就是通过不断迭代以下几个步骤:

下面将进一步阐明这个过程是如何进行的:

这个过程可以概括为联合选择算法、预处理方法以及超参数。具体如下:分类/回归的选择、预处理方法是最高优先级、分类超参数、被选择方法的超参数会被激活。我们将使用贝叶斯优化方法来搜索组合空间。贝叶斯优化方法适用于处理高维条件空间。我们使用SMAC,SMAC是的基础是随机森林,它是解决这类问题的最好方式。

就实用性而言,由于Auto-sklearn直接替代scikit-learn的estimator,因此scikt-learn需要安装这个功能,我们才能利用到这个优势。Auto-sklearn同样也支持在分布式文件系统中进行并行计算,同时它也可以利用scikit-learn模型的持续特性。要想高效的使用Auto-sklearn替代estimator只需要4行代码就可以了。作者这样写道:

自动化机器学习将成为下一个AI研究主流?听听数据科学家怎么说

自动化机器学习将成为下一个AI研究主流?听听数据科学家怎么说

需要注意的是,Auto-sklearn是ChaLearn AutoML challenge竞赛中,auto单元与tweakathon tracks单元的双料冠军。

最近Kdnuggets举办了自动化数据科学与机器学习博客大赛,Auto-sklearn研发团队提交的一篇博文在本次大赛中获奖,你可以 点击这里 进行阅读,同样也可以 点击这里 来阅读对他们的的采访。Auto-sklearn是由Freiburg大学研发出来的。

Auto-sklearn已经被托管到GitHub上了,你可以找到相关文档以及API。

TPOT被认为是“你的数据科学助手”(要注意,不是“你的数据科学替代品”)。它是一个Python的工具。通过使用“遗传编程来自动的创建与优化机器学习管道”。TPOT与Auto-sklearn类似,与scikit-learn协同工作。就像是scikit-learn的包装器。

在本文中,我们曾提到过,这两个工具使用不同的方式,达到相似的目标。二者都是开源的,都是使用python编写而成的,都宣称通过使用自动化机器学习的方式简化了机器学习的过程。然而Auto-sklearn使用的是贝叶斯优化,TPOT使用的却是遗传编程。

尽管两者使用的方法不同,但是二者的最终结果却是相同的:自动化超参数选择,用一系列算进行建模,对大量特征的探索,这些都导致了迭代建模以及模型进化。

自动化机器学习将成为下一个AI研究主流?听听数据科学家怎么说

TPOT的真正好处之一就是使用scikit-learn的管道,产生可以准备运行的、独立的Python代码。这个代码代表着所有备选模型中表现最好的模型。我们就可以修改与审查这份代码。这份代码并不会是最终的模型,而是可以当做是我们寻找最优模型的有效起点。

下面是一个关于TPOT的例子,该案例使用MNIST数据集:

自动化机器学习将成为下一个AI研究主流?听听数据科学家怎么说

这次运行的结果正确率达到了98%,同时pyhton代码也就是我们所说的管道也会被导入到tpot-mnist-pipeline.py文件当中,如下所示:

自动化机器学习将成为下一个AI研究主流?听听数据科学家怎么说

我们可以 在GitHub上找到TPOT的源代码 ,以及说明文档。

TPOT的领军人物Randy Olson在Kdnuggets上写过一篇关于TPOT 与AutoML(自动化机器学习)的文章,你可以 点击这里 找到该文章。也会在这里找到对Randy的采访。

TPOT是由宾夕法尼亚大学生物医学信息学研究所研究出来的,由NIH资助。

当然,自动化机器学习不仅仅只有这两个工具。还有其他的工具,像Hyperopt (Hyperopt-sklearn)、 Auto-WEKA,以及Spearmint等等。我打赌在未来几年,大量相关的额外项目将会出现,这些项目中既会包含研究项目,也会包含工业项目。

自动化机器学习的未来

自动化机器学习的未来在哪里?

我最近公开地进行过以下陈述(根据我的文章《2017年机器学习预测》):

在同一篇文章当中,Randy Olson也表达了在2017年他对自动化机器学习的期望。此外Randy在最近的采访中有更加详细地阐述了他的预测:

但是自动化机器学习是否会替代数据科学家?Randy继续说道:

我并不认为自动化机器学习的目标是为了替代数据科学家,就像是智能代码自动完成工具的目标并不是来替代程序员一样。相反,对于我来说,自动化机器学习的的目标是为了减轻数据科学家的压力,使他们不必将大量的精力耗费在重复与耗时的任务上(比如说机器学习的管道设计与超参数的最优化)。这样他们就可以将时间投入到无法进行自动化的任务当中去。

这种思想十分好。auto-sklearn的开发人员也同样认同他的观点:

这听起来十分的鼓舞人心:数据科学家不会被大量替换,自动化机器学习是为了帮助他们更好的工作。这并不是说自动化机器学习已经很完美了。在我们提到自动机器学习是否还有进步空间的时候,Auto-sklearn团队如是说:

自动化机器学习的发展方向在哪里?很难说清楚。毋庸置疑的是,迟早会出现。尽管不是所有的数据科学家都熟知自动化机器学习,但是熟知自动化机器学习将会使你获益匪浅。别忘了,假如你能够在大多数人意识到之前就去学习自动化机器学习,驾驭科技浪潮,你就不会因未来的不确定性而担心你的工作了。你对于这些技术的驾驭利用将会帮助你在未来更好的工作。而我也再想不出比这个更好的理由来学习自动化机器学习了。

原创文章,未经授权禁止转载。详情见 转载须知 。

自动化机器学习将成为下一个AI研究主流?听听数据科学家怎么说

全局中部横幅
人民币

大小写转换工具可以实现人民币数字大写转换,也可以实现单词、段落、语句以及文章的英文大小写转换,可以将大写字母全部转换成小写字母,也可以将小写字母全部转换为大写字母,还可以实现首字母大写转换。

徐州市水利工程建设有限公司

徐州市水利工程建设有限公司前身是徐州市水利工程建设局,创建于1959年7月,现为国家“水利水电工程施工总承包壹级”施工资质企业,同时具有港口与航道工程、公路工程、市政公用工程、房屋建筑工程、土石方工程等总承包和专业资质。

明扬入户门,精雕铸铝门

浙江耀昇工贸有限公司座落于武义县下陈工业区,是一家致力于甲级防盗门的研究、开发、制造、销售为体的专业型企业。公司厂房面积2.5万平方米,员工200多人,产值1亿元。

途蔚新风系统

  2VV创始于1995年,集团总部位于捷克,是欧洲专业的通风生产商之一。现亚洲运营中心设于上海,成立至今一直从事高品质通风系统的研发及生产,产品通过并获得欧洲多项行业认证。   2VV现有多系列产品,其中ALFA系列专注于别墅、酒店等大空间房屋;DAPHNE系列主要适用于大平层或公寓等稍小空间;InGremio系列主要为管道系统,独特的防霉、杀菌、防静电特性,能够保证新鲜空气进入室内不会遭受二次污染。   2VV系列产品的组合能够为新建和改造住宅提供一体化的高品质空气解决方案。

ES伽股

ES伽股为您搜集新鲜财经新闻、财经资讯及实用的股票知识,内容覆盖全面,为您推荐投资理财和金融管理方案

河南治嘴歪专科张大夫

河南专治嘴歪口歪张大夫,部队转业五十余年专科经验,不用针灸,不用服药,利用新疗法,对症施治,精良的医术和高尚的医德为数以千计的患者解除了病痛,该疗法曾获得过全军科技二等奖。

智尚视界

智尚视界专注于为用户提供最新的科技新闻与生活时尚资讯,旨在将智能科技与现代生活完美结合。网站涵盖智能家居、创新产品、时尚潮流等多个领域,提供深入的评测、行业动态和实用技巧,帮助用户在繁忙的生活中找到便捷与灵感。

一创智富通

一创智富通是A股上市券商第一创业证券(股票代码:002797)官方互联网平台,集股票开户、股票交易、股市行情、基金理财等为一体的智能化手机证券APP,是深受海内外数百万投资者喜爱的一站式股票交易投资理财平台!

振动检测仪

靖江市中诺仪器仪表有限公司拥有一个熟练掌握振动检测技术的团队,主营产品有“安铂轴承加热器,现场动平衡服务,SKF激光对中仪,油质检测仪,进口现场动平衡仪,电磁感应轴承加热器,机械故障诊断”等产品,销售服务网络覆盖多个区域,欢迎咨询了解!

820手游网

820手游网,是传奇私服下载门户站新起之秀,为广大网友免费提供热门的安卓手游、IOS手游以及手机软件下载,并且收集了最新好玩的传奇私服手游下载,包含1.76复古传奇、1.80火龙传奇、1.85英雄合击、1.95英雄连击传奇sf,以及正版授权新开热血传奇私服手游、单职业传奇手游、冰雪传奇私服、神途传奇手游攻略文章等,打造最新、最全的传奇sf手游下载发布网.

七政四余网

七政四余,紫微斗数,七政择日

滨州网上送花

滨州市订花高档品质精美包装价格合理,一个微信让你足不出户送祝福。滨州送鲜花送花到滨州由店员配送,滨州绿之风鲜花坊鲜花行业口碑品牌,提供更好的鲜花和服务

全局底部横幅