数据科学专业是否会 被自动化 (数据科学专业属于哪个大类)

文章编号:36869 资讯动态 2024-11-30 Uber 数据科学

双语原文链接: Is The> 数据科学专业是否会“被自动化”?

对其保留一定态度

我个人对Uber的“预测即服务”目标持怀疑态度。我可以理解,Uber是否允许其员工使用预先构建的模型“按需”预测某些关键业务指标,这些模型已经过数据科学团队的广泛研究和完善。但是我不认为这就是弗朗兹卡·贝尔(Franziska Bell)的意思。看来她的目标是能够通过按一下按钮就几乎可以预测所有事物。

这是一个非常困难的问题,几乎是不可能的问题。让我们逐步完成预测过程的每个步骤,以更好地了解可以轻松实现哪些自动化。

明确定义问题-需要预测什么?

没有要解决的问题,建立模型并进行预测就没有多大意义了。因此,第一步是弄清楚我的问题是什么,我可以预测该问题的哪些方面使问题更加清晰?

这通常不像乍看起来那样明显。自从Uber入手以来,让我们继续以它为例。假设我们是 Uber的分析师,我们的工作是预测明年旧金山 Uber的需求。我们能否仅将Uber需求的历史时间序列提供给预测平台并加以处理?

可能不是。我的意思是我们的老板所说的需求是什么意思?可能是以下任何一种:

因此,围绕我们到底需要预测什么是不明确的。您是否注意到,在充实需求定义时,我们需要逐步预测更多变量?

甚至车手本身的数量也是许多因素的相互作用:

因此,看似简单的问题最终变得非常复杂且难以自动化。如上所述,正确的预测模型通常是多个单独模型和预测的集合。如果我们没有考虑到足够多的变量,我们的模型将错过关键的因素。而且,如果我们尝试在集成中包含太多模型和/或预测,我们将迷失在复杂的迷宫中。

弄清楚要预测的内容并不容易,作为一名负责充实模型各个组成部分的架构师,经验丰富的数据科学家可能是无价的,因此可以跨越太简单和太复杂之间的界限。

识别有效的数据(并找到它)

一旦确定了要预测的变量并为我们的模型整体绘制了简洁的流程图,我们就准备好了吗?错,首先我们需要弄清楚我们是否拥有所需的所有数据。在最乐观的情况下,我们所有的数据都可以使用,清洗并准备放入数据库,但是在现实世界中很少有这样的事情发生。

一旦知道了要预测的内容,就需要确定候选特征集,以用于生成预测。通常,这些数据并不容易获取-相反,数据科学家的工作是找出从哪儿、怎样获取这些数据。如果不可能直接观察,那么如何用实际可用的东西来替代它。

这一步也很难自动化。除非公司的数据湖像Google一样广阔和深厚,否则他们将需要数据科学家智能地、创造性地搜寻世界范围内的有效数据。

建立预测—特征工程和选择正确算法

这部分可能更易于自动化。假设我们已成功获取并清除了所有数据(不容易做到),那么现在就可以构建模型了。

虽然我认为经验丰富的数据科学家或统计学家在选择正确的模型并正确设置其参数方面是非常宝贵的专家,但我也知道,在这里绝对有可能采用暴力,自动化的方法。

您甚至可能会争辩说,我们不必为了选择最佳模型而运行和测试每个模型。相反,我们可以假设使用XGBoostor或神经网络为我们提供足够好的结果,前提是它们经过适当的训练且不会过度拟合。

另外,上述两种算法都有效地使特征工程过程自动化。例如,给定足够的神经元和层数,神经网络可以轻松捕获特征与目标之间的任何非线性关系。因此,无需显式地包含特性的日志和指数或特性之间的交互作用。

当然,这种自动化需要付出一定的代价。可解释性低-换句话说,我们不知道是什么在推动我们的预测。例如,在线性回归中,β系数A告诉我们特征A增加1单位将始终对我们的预测产生确切的影响;在神经网络中,我们不知道特征A的增加如何影响我们的预测。

在当今的大数据和复杂数据世界中,模型的可解释性似乎是一种很好的选择,而不是必须具备的。但我认为,在更简单,更易解释的模型不花很多钱的情况下(就预测的准确性而言),保持简单是明智的。

数据科学专业是否会“被自动化”?

知道模型何时可能断裂

赋予每个人预测能力一种被低估的风险是,没有事先预测经验的人对无效或过度拟合模型可能造成的破坏,缺乏健康的尊重。

从行为上讲,当我们看到定量准确的预测时,就会陷入一种错误的安全感(我们对数字和数学的精度感到满意)。 但是,经验丰富的数据科学家会知道质疑模型的假设,并认识到模型在什么条件下可能表现不佳。

这是另一个令人费解的模型的缺点-如果我们看不到推动我们预测的关键关系,那么很难知道我们处于一个这些关系不再有效的环境中。

我认为,这很难自动化。总有一份工作是为那些既了解建立模型和做出预测的好处和风险的人准备的。

结论

一切可以自动化的东西似乎最终都会实现。 因此,当数据科学和机器学习的某些方面在某个时候实现自动化时,我们不应感到惊讶。 相反,我们应该专注于难以自动化的数据科学领域,并将在可预见的未来继续增加价值:

当然,这些只是我的想法。 我也很想听听您的声音。 Cheers!


AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。

如果,你也是位热爱分享的AI爱好者。欢迎与译站一起,学习新知,分享成长。

数据科学专业是否会“被自动化”?

版权文章,未经授权禁止转载。详情见 转载须知 。

数据科学专业是否会“被自动化”?


本文地址: https://www.gpxz.com/article/32954ac49e50062983eb.html
全局中部横幅
全局中部横幅
宝贝命名坊

宝贝命名坊是一个致力于为宝宝提供个性化、创意性中文名字的在线平台。我们结合家长的需求和孩子的特点,量身定制专属的名字方案,让每一个名字都充满爱与期待。在这里,您可以找到最适合您宝宝的名字,让爱从名字开始传递。

门道云官网

门道云是一家以3D数字技术、CAD技术研发为主的高科技互联网公司,产品有门窗云设计、全屋/别墅云设计、阳光房云设计、门道云APP、门道CAD、门道云制造、立窗ERP等产品,为家装客户提供“品牌推广、终端引流、云端设计、场景销售、柔性生产、设备对接、安装服务”全流程闭环。

西安凌派VR开发

陕西凌派信息技术有限公司是一家基于VR、AR及MR为技术核心,专注展示内容的互动设计、开发及应用的一体化解决方案提供方。

海钓达人

【海钓达人】专注于海洋垂钓领域,提供实用的海钓技巧、潜水捕捞经验分享、丰富的海钓地点推荐及高质量的海钓装备测评。加入我们,共享无尽海洋垂钓的魅力!

安联锐视

安联锐视,专业的安防视频监控解决方案提供商,依靠自主研发和持续创新向客户提供优质的安防监控产品和领先的系统解决方案。

石磨面粉机

河南永之祥机械设备制造有限公司【18839753628】是一家生产玉米加工设备、莜麦加工设备、玉米深加工设备、小米加工设备、大米加工设备、杂粮加工设备等设备的专业化公司,其中玉米加工设备产品多次获得名优产品和质量信得过产品称号,产品畅销全国各地,并出口俄罗斯、尼泊尔、乌克兰及南非十几个国家

妈妈亲子鉴定中心

妈妈亲子鉴定中心专业提供亲子鉴定服务,保障亲子关系真实可靠。我们拥有专业的团队和先进的技术设备,确保测试准确性和隐私保护。妈妈亲子鉴定中心,您值得信赖。

自动化工厂

南京凡艺智能科技有限公司是一家专业从事自动化、信息化、智能化技术开发与服务的高新技术企业,我们专注于为客户提供技术咨询、系统设计、集成、现场安装、调试、保产及运行维护等定制化服务;拥有自主知识产权40项,公司被评为“AAA”级信用企业,并已通过ISO9001国际质量体系认证、职业健康安全管理体系认证、环境管理体系认证。

阿贝尔,德尚伟业,化妆品OEM代工

阿贝尔自成立起一直从事美容面膜原材料的研发和生产。是全国的软膜粉专业生产企业之一。阿贝尔对美容面膜领域的深入、拥有面膜种类的繁多、先进精髓技术的掌握,使其在业内拥有着“面膜之源”的美誉

郑州网站建设知识分享

郑州尧图网站建设,建站知识分享网

无锡穆桂英

无锡穆桂英食品是生产品种以米面食品(糕、团、年糕、馒、饼、包子、水饺),八宝饭,糕点食品为主的专业美食食品制造企业,其产品是无锡伴手礼上佳选择.

云商小程序,www.3ccn.cn

云商微信小程序购物小程序,展示小程序平台,开发平台专注小程序制作,小程序开发,小程序设计,小程序定制开发,微信小程序网站,微信小程序商城。


全局底部横幅