连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界 (看看好莱坞大片)

文章编号:45777 资讯动态 2024-12-09 2token VID LLaMA 贾佳亚团队

家人们谁懂,连大模型都学会看好莱坞大片了,播放过亿的GTA6预告片大模型还看得津津有味,实在太卷了!

而让LLM卷出新境界的办法简单到只有2token——将每一帧编码成2个词即可搞定。等等!这种大道至简的方法有种莫名的熟悉感。不错,又是出自香港中文大学贾佳亚团队。

这是贾佳亚团队自8月提出主攻推理分割的LISA多模态大模型、10月发布的70B参数长文本开源大语言模型LongAlpaca和超长文本扩展术LongLoRA后的又一次重磅技术更新。而LongLoRA只需两行代码便可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens的成绩收获了无数好评。

这次,贾佳亚团队的新作多模态大模型LLaMA-VID,可支持单图、短视频甚至长达3小时电影的输入处理。须知当前,包括GPT-4V在内的多模态模型 [1,2,3]基本只能支持图像输入,面对实际场景中对多图像长视频的处理需求支持十分有限,面对几十分钟甚至几个小时的长视频更显无能为力。

可以说,LLaMA-VID的出现填补了大语言模型在长视频领域的空白。

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

电影搭子LLaMA-VID的一手体验

先拿最近爆火的GTA6预告片试试手感。

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

LLaMA-VID能够准确理解预告片里出现的场景,并能分析预告片中游戏吸引人的地方在于广泛的活动场景和惊艳的视觉效果。

而根据游戏中的场景和特征,LLaMA-VID还能推测出预告片是Rockstar公司游戏GTA6的推广,并说出游戏的背景城市为迈阿密。

针对网络上流行的短视频和图片,LLaMA-VID也不在话下。

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

LLaMA-VID能够分析短视频中知名表情包的笑点,因为视频中人物夸张的表情以及对周围人物的情绪感染不断加深并强化。

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

也能扮演“福尔摩斯”,像侦探来根据室内的环境分析人物性格。

接下来,LLaMA-VID将通过看经典电影来展示自己的看家本领。首先是励志、温情的《阿甘正传》:

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

可以看出,LLaMA-VID对角色的理解与分析十分准确。

如珍妮对于阿甘的意义(孩童时期的朋友,后来成为阿甘的妻子,是阿甘生活和心灵的慰藉);阿甘在战争及退伍后的事件分析(丹中尉责怪阿甘救了自己,无法战死沙场),并对接见阿甘的美国总统如数家珍(肯尼迪、约翰逊、尼克松分别因为全美橄榄球运动员、越战荣誉勋章、和全美乒乓球队接见阿甘)。

这一次直接挑战超长视频,让LLaMA-VID看一部近3小时的、刺激的科幻大片《星际穿越》,并与其进行对话。

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

可以看出,LLaMA-VID不仅能结合电影情节和人物轻松对电影进行点评,而且能很精准地回答出剧中所涉的细节。

例如,虫洞的作用和创造者是谁(未来的智慧生物放置在土星附近,用于帮助人类进行远距离星际穿越),男主库珀是如何将黑洞中的信息传递给女儿墨菲(通过手表以摩斯密码的方式传递数据),以及米勒星球上相对地球时间的快慢及原因(米勒星球由于在黑洞附近,导致1小时相当于地球7年)。

不得不说,这个电影搭子实在太强大了,又狠话又多那种!

16个图片视频量化指标直接Promax

见识过电影搭子的超能力后,不妨来看看贾佳亚团队是如何开发LLaMA-VID的。

要知道,当前的多模态模型无法处理长视频的主要原因在于传统多模态大模型对单张图片的编码token数量过多,导致在视频时间加长后所需要的token数急剧增加,使模型难以承受。

以当前多模态大模型的技术标杆GPT-4V为例。由于每张图像都需要过多的Token进行编码,GPT-4V很难将所有的视频帧全部送入大模型。例如对于GTA6预告片(1分30秒)的输入,GPT-4V采用抽取5帧的策略进行逐帧分析:

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界 连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

这不仅会使用户对视频内容无法获得直观的理解,并难以处理更长的视频输入。

如果让GPT-4V对视频进行统一分析,则会出现报错并无法处理:

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

为解决这个问题,贾佳亚团队重新设计了图像的编码方式,采用上下文编码 (Context Token) 和图像内容编码 (Content Token) 来对视频中的单帧进行编码,从而将视频中的每一帧用2个Token来表示。

其中,上下文编码根据用户输入的问题生成,从而保证了在极限压缩视频消耗的同时,能尽可能保留和用户问题相关的视觉特征。而图像内容编码则更加关注图像本身的内容信息,来对上下文编码未关注到的环境进行补充。

简单来说,对于上下文编码 (Context Token),LLaMA-VID利用文本解码器(Text DeCoder)根据用户的输入和图像编码器(Visual Encoder)提取的特征来生成输入指令相关的跨模态索引(Text Query),并使用所生成的索引对图像编码器生成的特征利用注意力机制(Context Attention)进行特征采样和组合,从而生成高质量的指令相关特征。

而对于图像内容编码 (Content Token) ,LLaMA-VID直接根据用户需求对图像特征进行池化采样。这对于单张图片或短视频,可保留绝大多数的图像特征从而提升细节理解,而面对几个小时的长视频时,则可将每帧的图像特征压缩成2个Token。

用这种方式,LLaMA-VID可以将3个小时的电影或视频精简为数个Token,直接使用大语言模型进行理解和交互。

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

这种Token生成方法非常简洁,仅需几行代码即可实现高效的生成。

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

此外,LLaMA-VID还收集了400部电影并生成9K条长视频问答语料,包含电影影评、人物成长及情节推理等。结合之前贾佳亚团队所发布的长文本数据集LongAlpaca-12k(9k条长文本问答语料对、3k短文本问答语料对), 可轻松将现有多模态模型拓展来支持长视频输入。

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

在16个视频、图片理解及推理数据集上实现了promax的效果

与现有方法相比,LLaMA-VID所提出的创新之处在于,仅用2个Token来处理视频中的图片即已大幅超越以往的模型,在MSVD-QA,MSRVTT-QA,ActivityNet-QA等多个视频问答和推理的榜单上实现了SOTA。而随着语言模型的增大,效果还能进一步增强

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

而面对现有的多模态模型如LLaVA-1.5,LLaMA-VID仅需加入1个所提出的上下文编码 (Context Token)拓展,能在GQA、MMBench、MME、SEED等8个图片问答指标上获得显著的提升:

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

值得一提的是,LLaMA-VID的视频理解和推理能力已经出了Demo,可以在线跟电影对话的那种。

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

操作也极其简单,只需选择电影海报和对应的电影段,即可直接和电影交流(部署在单块3090,需要的小伙伴可以参考code用更大的显存部署,直接和整个电影对话)。

同时也支持用户上传短视频进行互动。

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

如果对描述指令有疑惑的,Demo也给出了一些示例,感兴趣的小伙伴们不妨来pick一下这个电影搭子。 连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

Github地址:

Demo地址:

论文地址:

参考文献

[1] Hang Zhang, Xin Li, and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv:2306.02858, 2023.

[2] KunChang Li, Yinan He, Yi WANg, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, and Yu Qiao. Videochat: Chat-centric video understanding. arXiv:2305.06355, 2023.

[3] Muhammad Maaz, Hanoona Rasheed, Salman Khan, and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. arXiv:2306.05424, 2023.

版权文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/f4ea9479d5623ec9219f.html
全局中部横幅
全局中部横幅
智能生成产品常见问题

常见问题生成器是一款方便实用的在线工具。它能快速生成符合SEO习惯的常见问题及其回答,有助于提高网站的搜索排名和流量。使用该工具,您不再需要手动撰写FAQ,使您的客户更轻松地了解您的产品和服务。

诚迈科技

诚迈科技成立于2006年9月,智能科技专家,专注于智能终端、智能汽车、人工智能、物联网及移动互联网、国产操作系统等领域的技术研发和解决方案服务,拥有优质、稳定的客户群体,与知名移动芯片厂商、移动终端设备厂商、汽车厂商以及移动互联网厂商建立了长期稳定的合作关系。

同程商旅

同程商旅,中国企业服务首选差旅平台,全方位一站式服务,可实现差旅管控,对公结算,告别垫资,7*24小时全天候服务;为企业节省30%成本,提升管理效率,透明合规,省心省钱;

我的网站

市政工程项目-工业工程项目-技术服务项目-运营运维项目_哈尔滨博天环保设备有限公司

水泥试验仪器

我公司坐落于建材仪器之乡-沧州献县,公司产销公路建筑材料检测仪器设备及实验耗材,为各大质检站、商砼搅拌站提供服务,得到客户认可。有专业团队为客户解决仪器使用培训售后,服务电话0317-7777829。

沈阳电锅炉厂家

沈阳中瑞锅炉(电话:13842081989)主要产品:低氮冷凝燃油燃气锅炉,电锅炉,生物质锅炉,壁挂炉,燃油锅炉,蒸汽锅炉,热水锅炉,常压锅炉,真空锅炉,燃煤锅炉,导热油炉,热风炉等.厂家将竭诚为用户服务.

168商城

168商城,格美集团格美会会员商城,名牌优品,超值价格!会员可享全K币换商品!夏季消暑专场上线!1K币试用!商城涵盖食品饮料,家居百货,美妆洗护,3C数码,大小家电等上千品牌!100%正品,全网低价,7天无理由退货!

旅游网www.5

旅游网www.5-19.cn——秉持“走遍神州大地热爱美丽中国”的宗旨,以摄影为媒介,以网络为手段,致力于向广大网民介绍中国各地旅游景点和旅游信息。

南京师范大学考研网

南京师范大学考研网,在校研究生直系学长学姐,分享南师大考研备考指导,考研专业课复习方法专业课一对一辅导、公共课专业课历年真题、考研资料、参考书目、分数线、报录统计、招生简章、复试调剂信息、专业课参考书目等资讯

建筑幕墙工程,建筑幕墙工程设计,防水防腐保温工程,高空外墙清洗保洁,幕墙检测维修维护

深圳伟达幕墙有限公司成立于2016年,公司拥有建筑幕墙工程专业承包一级资质,建筑幕墙工程设计专项乙级资质、防水防腐保温工程专业承包二级资质、高空外墙清洗保洁专业一级资质,并已完成四大体系认证;是一家致力于即有幕墙检测与维修维护的专业幕墙公司、集幕墙设计、幕墙施工管理、幕墙维护维修、幕墙改造提升、高档系统门窗加工销售于一体的专业幕墙公司,电话:13570863103/13688839878。


全局底部横幅