解锁多模态大模型 大模型 港中文贾佳亚团队提出 LISA 推理分割 能力 (多模态界面)

文章编号:36790 资讯动态 2024-11-30 大模型 港中文 LISA 贾佳亚

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

当前的视觉识别系统都依赖人类用户明确指代目标物体或预先设定识别类别,进而进行识别。它们仍然只能处理简单明确的指令(如“橙子”),而无法解析相对隐式和复杂的指令(如在下图中指出 “维生素C含量高的食物”)。

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

而真正的智能感知系统应该根据用户指令推理其真实意图。例如,在指示机器人时,人们往往倾向于直接给一个指令“我想要看电视“,而不是分几个步骤”走去茶几旁边,帮我找到遥控器,然后按下按钮打开电视“。这些场景都要求感知系统具有复杂推理和联系世界知识的能力。

最近,香港中文大学贾佳亚团队发布一项新研究,提出一项新任务——推理分割(Reasoning Segmentation),该任务要求模型能够处理复杂的自然语言指令,并给出精细的分割结果。

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

如上图所示,推理分割任务具有很大的挑战性,可能需要借鉴世界知识(例如,左图需要了解“短镜头更适合拍摄近物体”),或进行复杂图文推理(如右图需要分析图像和文本语义,才能理解图中“栅栏保护婴儿”的含义),才能获得最终理想的分割结果。

尽管当前多模态大模型(例如Flamingo [1], BLIP-2 [2], LLaVA [3], miniGPT-4 [4], Otter [5])使得AI能够根据图像内容推理用户的复杂问题,并给出相应的文本分析和回答,但仍无法像视觉感知系统那样在图像上精确定位指令对应的目标区域。

因此,此项研究工作提出LISA(Large Language Instructed Segmentation Assistant)多模态大模型。LISA通过引入一个标记来扩展初始大型模型的词汇表,并采用Embedding-as-Mask的方式赋予现有多模态大型模型分割功能,最终展现出强大的零样本泛化能力。

同时,该工作还创建了ReasonSeg数据集,其中包含上千张高质量图像及相应的推理指令和分割标注。

实验证明,在训练过程中仅使用不包含复杂推理的分割数据(通过将现有的语义分割数据如ADE20K [6],COCO-Stuff [7]以及现有指代分割数据refCOCO系列 [8]中的每条数据转换成“图像-指令-分割Mask”三元组) ,LISA能在推理分割任务上展现出优异的零样本泛化能力。此外,进一步使用239个推理分割数据进行微调训练还能显著提升LISA在推理分割任务上的性能。而且LISA还表现出高效的训练特性,只需在8张具有24GB显存的3090显卡上进行10,000次训练迭代,即可完成7B模型的训练。

技术方案概述

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

首先将图像和文本送到多模态-大语言模型(在实验中即LLaVA),得到输出的文本结果,如果此时文本结果包含标记,则表示需要通过输出分割预测来解决当前问题。反之,若不包含标记,则无分割结果输出。

如果存在标记,则将标记在多模态大模型最后一层对应的embedding经过一个MLP层得到,并将其与分割视觉特征一起传递给解码器(其中分割视觉特征由输入编码器对图像进行编码得到)。最终,根据生成最终的分割结果。

LISA在训练过程中使用了自回归交叉熵损失函数,以及对分割结果监督的BCE和DICE损失函数。

模型效果

最终,LISA不仅在传统的语言-图像分割指标(refCOCO、refCOCO+和refCOCOg)上展现出优异性能,还能处理以下分割任务情景:1)复杂推理,2)联系世界知识,3)解释分割结果以及4)多轮对话。

在有复杂情景的ReasonSeg数据集上,LISA显著领先于其他相关工作(如Table 1),进一步证明其出色的推理分割能力。

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

效果展示

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力 港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力 港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

版权文章,未经授权禁止转载。详情见 转载须知 。

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力


本文地址: https://www.gpxz.com/article/ee5369148c5ddc9d33ea.html
全局中部横幅
全局中部横幅
有点网

有点网,手上有点活儿,分享各种手工制作教程!主要内容包括:纸艺折纸、剪纸、卷纸,布艺包包、服饰、玩偶,皮艺皮包、皮具、饰品,软陶、轻粘土、橡皮泥,编织中国结、毛线针织、藤编草编,雕刻雕塑、骨雕、根雕、核雕、玉雕、木雕,刺绣、十字绣,绘画等等手工制作教程大全。有点网,好手艺!

LED路灯厂家

江苏启翔光电(153-6685-3222)是专业的LED路灯厂家,是太阳能路灯,监控杆,道路灯,LED路灯,监控杆,升降高杆灯,多功能杆,综合杆等多种产品专业开发、生产和销售的生产厂家。厂家价格质量售后保证。

除湿机

浙江宁波辰宁新风系统主要生产除湿机,工业除湿机,除湿设备,冷风机,冷气机,水冷风机等新风除湿设备,公司拥有二千多平方米仓库。

四川省能源投资集团有限责任公司

四川省能源投资集团有限责任公司成立于2011年2月21日,注册资本93.16亿元。公司为四川省人民政府批准,在四川省工商局依法注册登记的国有资本投资公司,是四川推进能源基础设施建设、加快重大能源项目建设的重要主体。

伟创网络科技有限公司

我们是一家专业的网站建设公司,致力于为客户提供高质量的网站设计和开发服务。我们拥有一支经验丰富、技术娴熟的团队,能够根据客户的需求和要求,设计出具有创意和吸引力的网站。

动漫手游网

分享最新的手游攻略,专注于手机游戏攻略与手游兑换码。

江苏美城街具工贸有限公司

江苏美城街具工贸有限公司是一家专门从事候车亭、公交候车亭、智能候车亭、仿古候车亭生产制作的生产厂家,专业设计和生产市政设施系列产品和工程配套设施系列产品。

317护

317护是集护士培训考试、患者宣教解决方案为一体的云服务平台。与超过1000家医院合作,为超过50万护士提供便捷的护士培训考试服务,有超过300万患者享受了先进的健康宣教服务。

泉州老蔡原味膳饮食有限公司,老蔡鸭肉面线,鸭肉面线,老蔡原味膳

泉州老蔡原味膳饮食有限公司,老蔡鸭肉面线,鸭肉面线,老蔡原味膳

美拍网

美拍网是中国领先的短视频社交平台,致力于为用户提供便捷、有趣、高品质的短视频创作与分享体验。我们提供简单易用的短视频创作工具,丰富的滤镜、贴纸和特效,以及便捷的短视频分享平台,让用户轻松创作、分享和欣赏短视频。

陇州人

陇州人-陇县人的信息平台

欧米智能

深圳欧米智能科技有限公司是一家专注于智慧出行系列和电动自行车充电桩系列产品的研发、生产、销售,集软硬件开发为一体的国家级高新技术企业。产品获得的证书有实用新型专利、发明专利、外观专利、CE、ROHS等。


全局底部横幅