核武器 改变算法生产的 小样本 AutoML

数据、算法、算力,被称为AI的三驾马车。

其中,数据对于算法模型的效果至关重要:以深度学习为核心的AI,为了避免发生过拟合或欠拟合的情况,需要使用大量数据来进行模型训练,从而使模型达到更好的拟合优度,这对于解决场景问题无疑大有裨益。

不过,通过大量数据来训练算法,从理论上看无懈可击,但当AI走向落地场景,就不那么容易了。

以数据问题为例:

对于碎片化场景,数据成了老大难。

没有足够量的数据,就难以训练出好的算法模型,解决场景问题也就无从谈起。

这实际上是产业数字化转型面临的重大难题之一: 以人工智能为核心的数字化转型,在实际场景落地时,由于技术使用的先决条件存在短板,很难释放对产业转型的推力。

"从成本收益上看,在一些场景下,AI形如鸡肋,无法解决实际问题,更无法降本增效。"

中科智云CEO兼首席科学家魏宏峰告诉AI掘金志,数字化转型趋势下,隔行如隔山,整个市场需求都是碎片化的,这对AI而言提出了两大挑战:要么做场景定制化;要么改变现在的算法生产模式。

但这两种方式都逃不开前面提到的数据问题。

对于一些封闭场景,比如园区物流,通过场景定制化方案可以实现全自动化流程,然而这并不适用于碎片化的开放场景;此外,定制化成本过高,单独开发算法则会面对投入产出比严重不匹配的问题。

因而,比较合适的解决方法,是改变现有的算法生产模式。

这也是小样本学习(FSL)和AutoML(自动机器学习)火热的根本原因。

FSL与AutoML

小样本学习属于机器学习下的一个分支,诞生于碎片化场景很难获取足够有效的数据这一背景下,旨在通过较少的数据量或样本,来训练算法模型。

与传统机器学习相比, 小样本学习的优势在于,不需要大量数据支撑,但这同样也带来问题:数据量太少导致经验风险最小化不可靠。

所谓经验风险,是指模型关于训练样本集的平均损失。通常情况下,样本容量足够大(传统机器学习),经验风险最小化能保证有很好的学习效果;反之,样本量太小,经验风险最小化学习的效果就难以保证。

举个例子:

假设以小孩子为算法模型,汉字为样本数据,目标任务是认识汉字"我"。当小孩子抄写"我"的次数足够多,那么小孩子的学习效果就更好;反之,如果只抄写了数次,那么小孩子可能认识"我",也可能不认识,经验风险是不可靠的。(案例并不严谨,仅供参考)

目前行业内已经开始通过数据增强、模型约束空间、搜索算法等方式来解决小样本学习存在的问题。

"如果模型能力足够强,对样本的需求并不一定要非常大。"魏宏峰表示,一个好的模型,可通过小样本学习来形成自我训练,从而提高算法精度与适应性。

而建立好的算法模型,与AutoML(自动机器学习)密切相关。

在传统AI算法开发流程中,从业务和问题定义,到数据采集和标注、存储管理、数据分析和可视化,再到模型结构设计、优化......最后到应用开发,需要经历大概十三个环节,其时间成本、开发成本处于高位。

对于没有算法开发能力,但有算法应用需求的企业而言,这个流程非常"复杂",且成本较高,难以承受。

因而只专注于算法选取和神经网络架构搜索的传统AutoML是无法满足现实需求的,涵盖算法研发全流程的AutoML应运而生,从特征工程、模型构建、超参选择,优化方法四方面实现自动化,其优势在于:既减少了算法生产成本,又提高效率,并且降低了算法生产门槛。

比如,传统AI算法生产流程中,需要对数据进行人工标注,并且花大量时间处理数据;可以通过自动标注,结合人工复检,来提高数据标注效率。

在业界,已经有许多较为成熟的AutoML平台,国外如FeatureLab(自动进行特征工程)、Google Cloud Vertex AI NAS;国内则有第四范式的AI Prophet AutoML等等。

除此之外,还有一些AI公司,比如中科智云,也在做相应的类似的平台(X-Brain)。

作为一家聚焦安全治理的AI公司,中科智云主要以X-Brain AI主动学习平台,融合小样本学习框架、多源融合感知计算等技术,为行业提供AI 安全治理服务。

"X-Brain 的核心是一套主动学习算法框架,应用自研的主动学习(Active Learning)技术,改变了监督学习的被动接受人工标注样本的模式。"

魏宏峰告诉AI掘金志,该平台可通过AI主动判断样本是否需要算法工程师的参与,通过只让算法工程师参与部分困难样本的确认,形成人在回路(Human-in-the-Loop)模式,主动训练模型,形成模型自动迭代。

前面提到,小样本学习是为了解决碎片化场景无法获取大量数据训练模型的问题,而AutoML是在传统算法模式下,通过主动学习来提高算法生产效率,解放人力成本。

换句话说,小样本学习解决数据难题,AutoML则是提高算法生产效率的新方法,两者互相结合,或能解决小样本学习存在的算法精度问题。

不可能三角?

"小样本是低成本的基础,因为样本量小,训练模型不需要高算力硬件设备。"魏宏峰表示,如何让小样本学习达到商用精度,是一个巨大挑战。

因为,小样本学习存在经验风险最小化不可靠这一问题,也就是学习效果不确定,可通俗理解为算法精度可能高,也可能低。

核武器

"在一些场景中,小样本训练出来的精度,在初期很难达到商用水平。但可以通过AutoML来缩短从初期模型到商用这个过程。"

魏宏峰介绍道,X-Brain在采集样本之后,通过特征提取自动标注,并自动训练模型,由具体的业务人员来进行评价,查看是否发生误报,并调整参数。

基于这些调整,该平台的自动训练机制,将已标注完的数据放入重新训练......通过这种循环训练,来提高算法精度。

在这个过程中,样本量小,模型也不大,通过主动训练来提高精度,从而实现低成本使用。

所以,小样本、低成本和高精度之间,并非存在一个"不可能三角"。

仍以之前的小孩子识字为例:小孩子只抄写数次"我",其结果是可能认识"我",也可能不认识。如果引入老师进行引导、校正,那么即便抄写次数较少,其认识汉字"我"的可能更大。

这个案例中,老师扮演了业务人员的角色,小孩子就是算法模型。算法(小孩子)在自动学习过程中,需要由业务人员(老师)来调整参数(引导),学习效果也就更好。

其优势在于,给小孩子减负(减少抄写次数)的同时,提高学习效率(算法精度);从整个学习过程看,老师(业务人员)也无需全程监督,从而减少成本。

这实际上改变了以往的算法生产模式,将算法生产带入"平民化""低成本"时代。

AI与场景融合

AI从上半场进入下半场,实际上是从拼技术到拼场景的转变:AI只有在实际场景中落地才能产生价值。

在产业数字化转型中,各种碎片化场景,对算法的精度要求也比较高。如果按照传统的算法生产模式,成本降不下来,加上中小企业购买力弱,传统企业数字化转型必然难产。

而多样化场景中,也很难以通用算法来"一口多吃"。

"不同的场景需要不同的数据样本,训练出来的模型也不一样,通用算法模型并不适用,精度会大打折扣。"

魏宏峰表示,小样本学习和AutoML从技术上解决算法生产难题,但如何让技术更好地服务于企业,解决实际场景问题,就需要把具体场景痛点拆解之后,融入到整个算法生产过程中,从业务和问题定义开始,到模型调优,最后到算法交付,都要"让懂业务的人参与"。

这主要体现在两个方面:一是让企业在平台上进行实验,也就是业务试错;二是与企业加强交互,让懂业务的人员参与到算法训练中来。

"客户并不追求百分百的精度,能够接受误报,但不能接受试错成本太高,带来总成本上升。"魏宏峰认为,AI下半场由场景驱动,其实也是客户驱动,核心是解决客户(企业)在生产过程中遇到的问题。而AI公司要做好场景,最好的方式是直接与熟悉场景的业务人员交互,而不是AI公司本身去理解行业,否则成本会很高。

对于企业而言,考虑成本收益是其购买技术服务的出发点,成本(包括试错、时间、人力等多个方面)则是第一要素,其次才考虑技术带来的收益问题。

魏宏峰表示,企业购买技术服务之后,只有在降本增效方面取得实际效果,复购率才会提高,AI公司才能形成正向的业务闭环。

"AI只有靠业务,而不是资本推动,才能走出困局,改变行业。"而做好业务的首要前提是:结合场景。

不论是小样本学习还是机器学习,都只是生产算法的"术",结合场景解决产业数字化转型过程中的痛点,才是AI的"康庄大道"。

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/08d552fe5f3edc83bcfe.html
全局中部横幅
全局中部横幅
生物质气化炉厂家,低焦油生物质气化炉,生物质干馏炭化厂家,生物质气化发电厂家

唐山雷浩能源技术装备有限公司成立于2000年,是专业从事煤炭清洁有效利用与生物质能源综合利用工艺技术研发、装备制造、项目建设、工业节能服务的科技型企业,可根据用户需求提供清洁能源利用系统解决方案。生物质气化,生物质炭化,煤气化技术已经非常成熟。

重庆特瑞尔分析仪器有限公司

重庆特瑞尔分析仪器有限公司专业从事过程分析仪及其分析系统的研发生产、营销和全过程技术服务的创新型民营股份制高科技公司

巨成网

巨成网致力在游戏行业成为巨人一样让人敬畏的知识网站!

淘宝店铺装修

开三云匠网,专业的电商人才在线全职工作雇佣平台。开三云匠网为雇主提供淘宝美工招聘,设计师招聘,淘宝客服招聘,电商运营招聘等在线雇佣服务。实现淘宝美工,设计师,淘宝客服,电商运营等人才的在线兼职接单及外包服务、线上管理、工资托管等移动办公功能,享用一站式的雇佣服务。

逸名网:在线起名

免费起名|免费取名|起名|取名|英文名|测名|起名网|取名网|公司起名|免费在线测名|公司测名|公司名称测试|姓名大全|查粤语|在线粤语|人名大全|婴儿起名|个人测名|公司测名|在线查字|成语字典|阴阳历|八字|真太阳时|经纬度|姓氏|生日|星座|粤语发音|名字测试分数|小儿起名|在线图章|制作图章

盛大在线

为您提供最优质的汽车服务,在线车险,提供包括维修,保养美容,洗车,酒后代驾,二手车,非事故车道路救援等一站式汽车服务的解决方案——盛世大联网

笔下智慧网

笔下智慧网-提供2025年各省市事业单位招聘面试及备考要求,每日事业单位招聘信息公布,帮大家第一时间掌握最新国企招聘动态。

湖南省总会计师协会

湖南省总会计师协会(英文缩写HNCFO)是经省民政厅批准,依法登记成立的跨行业、跨部门、跨地区、跨所有制的全省性、专业性和非营利的社团组织。由本省及中央驻湘单位担任总会计师、财务总监、分管财务的行政负责人、单位财务机构负责人以及高等院校、科研院所的会计专家、教授等高级会计人员自愿组成。本会实行会员代表大会领导下的会长负责制,驻会会长主持日常工作。

易瓜网

易瓜网以易经为核心,为用户提供了丰富多彩的传统文化学习资源。无论您是初学者还是专业爱好者,都能在这里找到适合自己的内容。通过易瓜网的学习,用户可以逐步了解传统民俗文化的深奥之处,领悟其中蕴含的哲理,从而在现实生活中获得更多的启迪与指引。

北京中科海讯数字科技股份有限公司

北京中科海讯数字科技股份有限公司是一家从事海军水下作战,特别是反潜作战系统装备制造的国家高新技术企业,专注于水下反潜体系研究,以及各型声纳系统、水声大数据工程、水下作战推演仿真、探潜型无人艇和水下无人潜器、复杂电磁环境仿真等产品的研制。公司成立于2005年,注册资金5900万元,位于北京市海淀区中关村环保科技示范园。

翔升科技

翔升(ASL),是隶属于“深圳市翔升智能制造有限公司”旗下的品牌。是一家集研发,设计,制造,销售,服务于一体,专业制造生产显卡主板及存储的品牌企业。

全局底部横幅