平安科技前沿技术部门负责人王磊 大规模预训练模型在垂直领域应用的缺陷与改进 (平安科技前沿技术部门负责人王磊)

平安科技前沿技术部门负责人王磊:大规模预训练模型在垂直领域应用的缺陷与改进

整理 |维克多

目前,大规模预训练模型已经在自然语言处理领域取得了巨大的成功。BERT、GPT-3等大规模预训练模型被看做是“暴力美学”的一次胜利,验证了“模型越大,性能越好”的逻辑,业界也普遍形成了“炼大模型”的竞赛趋势,国内研究机构和企业也相继发布了大规模预训练模型,呈现百花齐放、百家争鸣的发展格局。

这些模型的实际应用情况如何?它们能解决哪些实际问题?还有哪些不足?

2021年12月, 平安科技前沿技术部门负责人王磊 在 CNCC 2021“产业共话:大型预训练模型的商业应用及技术发展方向”论坛上,做了《大规模预训练模型金融领域应用中面临的主要问题与应对技术探讨》的报告。在报告中,他指出了当前大规模预训练模型在垂直领域的“致命”问题,针对这些问题提出了平安科技的解决方案

例如,他认为大规模预训练模型在垂直领域性能达不到要求的原因可能是: “大规模预训练模型的训练语料库规模很大,既包含了该领域的关键信息也包含了其他无关信息,使得模型缺少对关键信息的关注”,“当前大规模预训练模型的机制改进也也很少涉及对关键信息的提取”。

基于此,王磊认为,大规模预训练模型本质上都是在处理信号,但只要是信号,就可能进行分解,将背景信息和垂直领域的信息分离开来,从而有效贴合下游场景。

金融客户对上线模型的精度要求很高,不少场景直接使用预加载模型往往很难满足需求。 王磊提出置信度评估方法,利用强化学习和Bagging思想评估模型靠谱程度。

以下是演讲全文,AI科技评论做了不改变原意的整理。



问题背景

在平安公司场景下,大规模预训练模型在金融业务上的应用主要集中在贷款风控与股市投资。同时,这 两个领域近些年的建模在因子层面会比较依赖大数据,例如文本信息,使用 预训练模型进行处理能够形成一些特征因子,从而方便分析理解。

大规模预训练模型已经在几十个任务上刷榜,在医疗领域的表现更是令人瞠目结舌。但是深入到金融领域,其性能仍然无法满足要求。 以选股为例,传统方法在信息获取阶段会人工从研报、雪球、知乎等论坛找寻一家公司的信息以及风评,然后结合基金经理或投资人自己判断获得对这家公司的洞察,从而决定是否买进。

由于金融领域的容错性特别低,而且要求模型对专业知识有很深的理解。如果达不到一定的理解水平,从业者宁可不用AI模型。

平安科技前沿技术部门负责人王磊:大规模预训练模型在垂直领域应用的缺陷与改进

一般而言,对于单任务,一个模型的性能能达到90%,但如果需要理解一段话或者一段专业评语,则需要三层模型才能形成一定的特征,这时模型性能就会下降为70%左右的水平。因此,在投资等要求严格的场景下,预训练模型很难应用。

为什么会出现这种问题?个人认为,大规模预训练模型的语料库是大型文本,它注重广度和背景,对于深度和细节较少关注。

以国内企业研发的一些预训练模型为例,其早期改进的方式都集中在Mask层面,而Msak机制更倾向于集中学习信息的广度。而当模型应用到法律、医学等领域时,更需要的是“深度”理解。

如何解决?目前有很多思路,例如加入专家知识,知识增强、混合训练等等。目前,中国平安在探索语义空间分解技术和置信度评估方法。



语义空间分解技术

平安科技前沿技术部门负责人王磊:大规模预训练模型在垂直领域应用的缺陷与改进

大规模预训练模型涵盖了很多背景信息,那么能否进行再一次的分解,将背景信息和垂直领域的知识体系分离开来?分解不能没有标准和依据,而大规模语言模型实际上是在处理信号,当模型理解信号的时候,虽然信息和语义仍然在,但却在中间发生了各种形式的变换。因此,无论是哪种大模型,其本质都是将信息或语义重新转述为信号。

那么,既然是信号,就能够进行分解。我们已经尝试了多种方式,其中一种做法是:基于国内机构提出的大规模预训练模型,加入高中低滤波器,然后用自适应频谱机制进行处理,可以理解为一个Attention机制,最后进入下游任务训练。

经过实验表明,我们提出的频谱分解网络结构(Filter-Loss和Filter-layer ) ,结合经典语言模型训练神经网络,在各类型任务中均可显著提升语言模型能力。

平安科技前沿技术部门负责人王磊:大规模预训练模型在垂直领域应用的缺陷与改进

更为具体,不仅是在垂直领域,改进后的语言模型在11个国际公开数据集上测试结果较BERT模型提升。这也证明,将语义空间进行分离,然后和下游任务结合的做法具有通用性。




置信度评估方法

在金融领域,无论模型达到什么样的水准,其上限永远是客户需求。例如客户的标准是95%的性能,而模型只能达到92%,仅仅差3个百分点,就会让模型很难上线。这类问题在金融企业非常容易遇到。

为了解决上述问题,平安科技提出了基于置信度评估的方法,通过这种方法,模型可以评估其“靠谱程度”。如果靠谱程度高,就通过,如果低,那么就需要人类接手,或者直接放弃。因为很多场景并不是信息越多越好,信息冗余已经成为了不可忽视的现象。

而且,还需要解决围绕各类复杂经济主体的多源异构大数据难以统一表述、信息难以整体耦合和关联的问题。平安通过对数据标签化提取的置信度技术研究,提升金融数据标签化提取精度,提升流程自动化水平;通过对多尺度多维度融合语义关联的经济主体表达技术的研究,构建金融领域知识图谱。

平安科技前沿技术部门负责人王磊:大规模预训练模型在垂直领域应用的缺陷与改进

信度评估方法采用的是强化学习构建置信度框架。主要分为三个部分:

1.用BERT等语言模型等抽取语义向量

2.利用双向长短期记忆方式组合全局向量

3. 强化学习模块根据人工打分拟合相关标准,输出置信度分数。

平安科技前沿技术部门负责人王磊:大规模预训练模型在垂直领域应用的缺陷与改进

此外,还可以尝试通过Bagging思想构建置信度框架。模型pipeline有4个阶段:

1.利用Bagging思想,从数据中抽样5份,训练出5套模型参数;

2. 在少量测试集上测试各套参数性能,根据性能例如F1值,分配各模型置信度权重;

3. 各套参数选择某个标签后,在结果统计中累加对应参数权重;

4. 最终输出累加置信度最高标签。




技术应用

平安科技前沿技术部门负责人王磊:大规模预训练模型在垂直领域应用的缺陷与改进

改进后的语言模型在语义相似度、多分类、语义蕴含等多类型国际公开数据集上测试精度较BERT模型的提升大多在10%-20%,但召回率下降20%-50%; 在实际项目中从舆情中提取公司标签的模型精度提升11个百分点,达到93%。

这在商业上非常有价值,例如虽然 召回率 降低了50个百分点,但意味着只有一半的模型需要人工干预,另一半的模型完全可以交给自动化,这远比模型无法上线要好的多。

在金融领域,例如选股,模型的精准度是首先需要考虑的,其他指标可以稍差。 例如从1000只备选股票中模型只选出了50只良好股票,可能会错过50只良好股票。但这种错过也是允许的,毕竟模型会“保证”选出来的50只股票大概率能够赚钱或有超额收益。


原创文章,未经授权禁止转载。详情见 转载须知 。

平安科技前沿技术部门负责人王磊:大规模预训练模型在垂直领域应用的缺陷与改进


本文地址: https://www.gpxz.com/article/5d24edbbb40d714b4423.html
全局中部横幅
全局中部横幅
袋式过滤器

上海虑达过滤器厂家专业生产袋式过滤机,刮刀式过滤器,自清洗过滤器,保安过滤器,快开袋式过滤器,滤芯式过滤器,钛棒滤芯过滤器,板式压滤器,袋式压滤器,衬四氟过滤器,大流量滤芯过滤器,多芯反冲洗过滤器,刮刀式自清洗过滤器,篮式过滤器,磁性过滤器,PP袋式过滤器,保温夹套过滤器,双联切换过滤器,pape微孔过滤器,离心式固液分离器,刷式自清洗过滤器等工业过滤器及过滤耗材,滤袋,滤芯,滤布滤膜等。

百度PC权重总榜

通过查看权重风向标,了解百度、360、神马等搜索引擎的权重变化大数据记录,从而了解网站的权重变化过程。

大哲网

大哲网-学习成就梦想!大哲网(www.dazhe5.cn)成立于2019年,是国内大型公益性英语学习平台。提供在线英语阅读、英语音标、英语单词查询、英语语法、英语听力、英语口语、少儿英语、高中英语、四六级、雅思托福等各个阶段的英语学习和英语考试信息。

爱采购百科站

爱采购百科站是一个结婚生活百科,生肖,运程,化妆,体育,星座知识的门户网站

东莞市晶美电子科技有限公司

东莞市晶美电子科技有限公司是一家专业研发、生产、销售各种型号声表面滤波器,谐振器,石英晶体谐振器、石英晶体振荡器等频率器件的知名企业,电话:076985072732

大唐奇迹MU

大唐奇迹是最新奇迹私服|新开奇迹私服|变态奇迹私服|网通奇迹私服30/33点经典设置,50倍经验,30倍经验,1.03h

职业考证宝

职业考证宝是一款为参加职业资格,技能等级认定等职业考证考生提供在线刷题学习的平台,让考证考试更简单。

过滤设备

重庆华博过滤设备制造有限公司

广州物流专线

广州物流专线-广州货运专线-广州物流公司-快时达物流

深圳三易智装科技有限公司

深圳三易智装科技有限公司主要成员有多年制造型企业相关测试以及自动化开发经验。公司聚焦企业生产组装,测试过程中的需求,为客户提供高效,稳定的,定制化的生产工装、测试治具/系统、自动化设备解决方案,助力客户提升生产效率与品质。,联系人:业务经理

广州澳通电线电缆有限公司

广州澳通电线电缆有限公司_低压电缆_矿物质电缆广州澳通电线电缆有限公司创办于1996年,公司生产基地座落于广州从化明珠工业园,注册资金18750万元,年生产能力25亿元,是一家集生产、研发、销售为一体的大型企业,服务热线:400-042-6988

全局底部横幅