不可能三角 预训练语言模型的下一步是什么 (不可能三角谁提出的)

不可能三角:预训练语言模型的下一步是什么?

编译 | 王玥

近年来,大规模预训练语言模型(PLM)显著提高了各种NLP任务的性能。由BERT和GPT-2开始,自监督预训练范式和监督的微调范式取得了巨大的成功,并刷新了许多自然语言处理领域的最先进成果,如语义相似度、机器阅读理解、常识推理和文本摘要等。此外,这些PLM的规模为中等(即大小低于1B参数),令模型可以做出广泛且快速的微调与适应。

然而在许多真实的、特别是新颖的NLP场景中,由于预算或时间限制,用于有效微调的标记数据非常有限。这就刺激了零样本和少样本NLP模型的开发。

从GPT-3开始,超大规模 PLM (SL-PLM)在只给出任务描述和一些手工示例的情况下,在一般的NLP任务上表现出了优越的性能。这种能力以前在中等规模的PLM中没有观察到。然而,这些SL-PLM前所未有的超大规模在很大程度上阻碍了其广泛应用。人们甚至很难获得足够的计算资源来加载这样的模型,更不用说有效的部署和微调了。因此我们认为,目前还没有一种轻量级PLM在监督学习和一般NLP任务的零/少样本学习场景中都具有出色的性能。这导致了在实际场景中使用这些PLM时需要投入大量的额外工作。

对于PLM来说,似乎产生了中等规模,零/少样本学习能力和微调能力三者不可同时出现的困境。日前,微软认知服务研究小组研究员朱晨光(Chenguang Zhu)及 Michael Zeng在其新论文《Impossible Triangle: What’s Next for Pre-trained Language MODELs?》中将这种困境称为“不可能三角”。

据悉,朱晨光本科毕业于清华姚班,后取得斯坦福大学计算机系博士学位,毕业后进入微软公司,现为微软公司自然语言处理高级研究员。此前,AI科技评论对朱晨光博士做过一次人物专访,更多内容可看:《 朱晨光:一个从不通宵的AI研究员



不可能三角

不可能三角:预训练语言模型的下一步是什么?

PLM的不可能三角包含了在实际场景中部署模型所需的三个属性,分别是:

图为描述当前PLM障碍的不可能三角形,这个三角形描绘了三个PLM关键属性:P1,即模型规模适中,P2,即SoTA少样本学习能力,以及P3,即SoTA监督学习能力。这三个属性对应于PLM实际应用中的三个要求:P1是使用合理数量的计算资源进行高效部署;P2对应标记数据为零或很少的情况;而P3对应标记数据相对丰富的情景。

不可能三角形存在的一个原因是,在当前阶段,只有当PLM达到极大的规模并具有足够的模型容量时,才会拥有强大的少样本学习能力。虽然iPET设计了中等大小的PLM,从而实现比GPT-3更佳的少样本学习性能,但已经被后来的SL-PLM(如PaLM)超越。随着模型规模的增大,我们可以观察到零样本/少样本学习性能的不连续改善。例如,与参数为8B和62B的模型相比,参数为540B的PaLM在许多任务上的准确性都有了巨大飞跃。因此,开发出一个具有SoTA零/少样本学习性能的中等大小模型,同时又保持高超的监督学习能力,仍然是一个巨大的挑战。

虽然没有一个PLM能实现不可能三角中的所有三个特性,但许多PLM已经具备了其中的一or两个属性:




改善措施

由于不可能三角的存在,学界和工业界采取了许多措施来解决实践中所使用的PLM所缺少的能力。总结如下:

以上提到的这些额外工作拖慢了训练和部署PLM模型的进程。而且对于不同下游任务或产品,需要不断进行这些工作。因此,如果一个PLM能够实现这个不可能三角形,则将大大加快模型训练和实用的过程。




展望未来

虽然目前在NLP模型中存在不可能三角形,但研究者认为可以通过三阶段的方法来解决这个问题。

阶段1:开发PLM以达到三角形中的某些属性,并同时改进其他缺失的属性。例如,提高一个具有SoTA监督学习能力的中等规模模型在少样本学习上的效果;或将具有SoTA少样本学习能力的SL-PLM压缩成更小的模型,并使其具有更好的监督学习性能。

阶段2:在一个或几个NLP任务上实现具有所有三个期望属性的PLM。为了实现这一点,可以利用目标任务的特殊性。例如,在某些任务上,模型性能对于训练数据规模的依赖性较小,零/少样本学习和监督学习性能之间的差距较小,等等。

阶段3:在第一阶段和第二阶段的基础上开发在通用NLP任务上实现所有三个属性的PLM。可能使用到的方法有:i) 用更大数据预训练一个中等规模模型; ii) 更好地进行知识蒸馏; iii) 泛化数据增强方法等。一旦一个PLM在通用NLP任务中具备了不可能三角形的所有三个特性,将很大程度上改变整个NLP研究和应用的格局,促进快速、高效和高质量的模型开发和部署。

不可能三角:预训练语言模型的下一步是什么?

版权文章,未经授权禁止转载。详情见 转载须知 。

不可能三角:预训练语言模型的下一步是什么?


本文地址: https://www.gpxz.com/article/1b7ad5f3f8e07677fc21.html
全局中部横幅
全局中部横幅
山西网站

山西网站排名,根据网站的综合值按照不同的山西网站进行筛选排名结果,通过筛选山西网站可以看到每个山西网站里面的网站排名优质的网站是哪些

MACD俱乐部

专业的技术分析交流

晋江市森工木制品(木托盘)有限公司

福建省泉州市晋江市森工木制品有限公司是一家专业生产加工木托盘、租赁木托盘、木栈板、木架、IPPC熏蒸木托盘、出口木托盘、免熏蒸托盘、胶合板托盘、包装箱、木材、二手托盘等木制品公司

长沙市虹艺沙发有限公司

长沙市虹艺沙发有限公司是一家专业从事沙发定做、沙发生产设计、沙发销售服务的机构。主要生产餐厅沙发,西餐厅沙发订做,咖啡厅沙发订做,茶餐厅沙发订做,酒吧沙发订做,影楼沙发订做,KTV沙发订做,酒店沙发订做,客厅沙发订做翻新等一系列沙发定做服务。

南京网络公司

南京小巨人是一家本地化的老牌网络公司,公司的口号是:做网站找小巨人,无论是网站建设还是网站设计或者是网站制作统统帮你一站式搞定。

铸铁平台

泊头市君诺工量具有限公司品牌专利产品有:君诺®自主品牌的平直量具类,大型铸铁平台、铸铁平板、检验平台、三维柔性平台、机床铸件等。拥有一项汽车减震试验平台的专利技术,为国内外几大汽车行业所应用,量身定做、实用实惠!欢迎来电咨询洽谈!

面粉加工成套设备

河南粮院专注研发生产面粉加工成套设备,面粉成套设备,面粉生产加工,面粉生产设备,面粉加工机械设备价格,面粉机成套设备公司电话,河南郑州面粉机械厂,购买粮院面粉设备享受农机补贴;咨询电话:400-966-9225

供应室平台

专业的一站式科研服务采购平台,拥有生物试剂、实验耗材、玻璃仪器、进口/国产耗材试剂,致力于科研服务,是中国领先的科研用品采购平台。竭诚为各大院校、医院、企业提供更专业的采购服务,让您的采购无后顾之忧。

果米文化

江苏果米文化,国内领先的网络棋牌类游戏开发商及游戏平台运营商

塑料波纹管

深圳市德盛电气有限公司专业从事电线电缆保护系统波纹管系列产品的生产厂家。主要产品有波纹管,尼龙波纹管,塑料波纹管,穿线波纹管,线束波纹管,PA波纹管,橙色波纹管,阻燃波纹管,包塑金属软管,软管接头,汽车线束波纹管等。产品通过各项认证:UL、CE、ROSH、IP68-10P等认证。

官方网站

培育创新人才,一课三融,专创融合,课程双创,开放创新马拉松挑战赛/课赛融合,高水平专业群课程建设,出彩云,创新思维训练,创业基础与实务,创新创业教育全球联合教研室,跨专业双创综合实践,课程内容重构,教学模式创新,周前进,郭叶峰,钱乃余,明兆凤,

15crmog高压合金管,15crmog无缝钢管,15crmog高压锅炉管,15crmog合金管山东圣德西金属材料有限公司

山东圣德西金属材料有限公司{13406362000}专业合金管、高压锅炉管供应企业,常年销售:15crmog高压合金管、15crmog无缝钢管、15crmog高压锅炉管、15crmog合金管等产品。


全局底部横幅