连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界 (看看好莱坞大片)

文章编号：45777 资讯动态 2024-12-09 2token VID LLaMA 贾佳亚团队

家人们谁懂，连大模型都学会看好莱坞大片了，播放过亿的GTA6预告片大模型还看得津津有味，实在太卷了！

而让LLM卷出新境界的办法简单到只有2token——将每一帧编码成2个词即可搞定。等等！这种大道至简的方法有种莫名的熟悉感。不错，又是出自香港中文大学贾佳亚团队。

这是贾佳亚团队自8月提出主攻推理分割的LISA多模态大模型、10月发布的70B参数长文本开源大语言模型LongAlpaca和超长文本扩展术LongLoRA后的又一次重磅技术更新。而LongLoRA只需两行代码便可将7B模型的文本长度拓展到100k tokens，70B模型的文本长度拓展到32k tokens的成绩收获了无数好评。

这次，贾佳亚团队的新作多模态大模型LLaMA-VID，可支持单图、短视频甚至长达3小时电影的输入处理。须知当前，包括GPT-4V在内的多模态模型 [1,2,3]基本只能支持图像输入，面对实际场景中对多图像长视频的处理需求支持十分有限，面对几十分钟甚至几个小时的长视频更显无能为力。

可以说，LLaMA-VID的出现填补了大语言模型在长视频领域的空白。

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

电影搭子LLaMA-VID的一手体验

先拿最近爆火的GTA6预告片试试手感。

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

LLaMA-VID能够准确理解预告片里出现的场景，并能分析预告片中游戏吸引人的地方在于广泛的活动场景和惊艳的视觉效果。

而根据游戏中的场景和特征，LLaMA-VID还能推测出预告片是Rockstar公司游戏GTA6的推广，并说出游戏的背景城市为迈阿密。

针对网络上流行的短视频和图片，LLaMA-VID也不在话下。

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

LLaMA-VID能够分析短视频中知名表情包的笑点，因为视频中人物夸张的表情以及对周围人物的情绪感染不断加深并强化。

也能扮演“福尔摩斯”，像侦探来根据室内的环境分析人物性格。

接下来，LLaMA-VID将通过看经典电影来展示自己的看家本领。首先是励志、温情的《阿甘正传》：

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

可以看出，LLaMA-VID对角色的理解与分析十分准确。

如珍妮对于阿甘的意义（孩童时期的朋友，后来成为阿甘的妻子，是阿甘生活和心灵的慰藉）；阿甘在战争及退伍后的事件分析（丹中尉责怪阿甘救了自己，无法战死沙场），并对接见阿甘的美国总统如数家珍（肯尼迪、约翰逊、尼克松分别因为全美橄榄球运动员、越战荣誉勋章、和全美乒乓球队接见阿甘）。

这一次直接挑战超长视频，让LLaMA-VID看一部近3小时的、刺激的科幻大片《星际穿越》，并与其进行对话。

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

可以看出，LLaMA-VID不仅能结合电影情节和人物轻松对电影进行点评，而且能很精准地回答出剧中所涉的细节。

例如，虫洞的作用和创造者是谁（未来的智慧生物放置在土星附近，用于帮助人类进行远距离星际穿越），男主库珀是如何将黑洞中的信息传递给女儿墨菲（通过手表以摩斯密码的方式传递数据），以及米勒星球上相对地球时间的快慢及原因（米勒星球由于在黑洞附近，导致1小时相当于地球7年）。

不得不说，这个电影搭子实在太强大了，又狠话又多那种！

16个图片视频量化指标直接Promax

见识过电影搭子的超能力后，不妨来看看贾佳亚团队是如何开发LLaMA-VID的。

要知道，当前的多模态模型无法处理长视频的主要原因在于传统多模态大模型对单张图片的编码token数量过多，导致在视频时间加长后所需要的token数急剧增加，使模型难以承受。

以当前多模态大模型的技术标杆GPT-4V为例。由于每张图像都需要过多的Token进行编码，GPT-4V很难将所有的视频帧全部送入大模型。例如对于GTA6预告片（1分30秒）的输入，GPT-4V采用抽取5帧的策略进行逐帧分析：

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

这不仅会使用户对视频内容无法获得直观的理解，并难以处理更长的视频输入。

如果让GPT-4V对视频进行统一分析，则会出现报错并无法处理：

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

为解决这个问题，贾佳亚团队重新设计了图像的编码方式，采用上下文编码 (ConText Token) 和图像内容编码 (Content Token) 来对视频中的单帧进行编码，从而将视频中的每一帧用2个Token来表示。

其中，上下文编码根据用户输入的问题生成，从而保证了在极限压缩视频消耗的同时，能尽可能保留和用户问题相关的视觉特征。而图像内容编码则更加关注图像本身的内容信息，来对上下文编码未关注到的环境进行补充。

简单来说，对于上下文编码 (Context Token)，LLaMA-VID利用文本解码器（Text Decoder）根据用户的输入和图像编码器（Visual Encoder）提取的特征来生成输入指令相关的跨模态索引（Text Query），并使用所生成的索引对图像编码器生成的特征利用注意力机制（Context Attention）进行特征采样和组合，从而生成高质量的指令相关特征。

而对于图像内容编码 (Content Token) ，LLaMA-VID直接根据用户需求对图像特征进行池化采样。这对于单张图片或短视频，可保留绝大多数的图像特征从而提升细节理解，而面对几个小时的长视频时，则可将每帧的图像特征压缩成2个Token。

用这种方式，LLaMA-VID可以将3个小时的电影或视频精简为数个Token，直接使用大语言模型进行理解和交互。

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

这种Token生成方法非常简洁，仅需几行代码即可实现高效的生成。

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

此外，LLaMA-VID还收集了400部电影并生成9K条长视频问答语料，包含电影影评、人物成长及情节推理等。结合之前贾佳亚团队所发布的长文本数据集LongAlpaca-12k（9k条长文本问答语料对、3k短文本问答语料对）, 可轻松将现有多模态模型拓展来支持长视频输入。

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

在16个视频、图片理解及推理数据集上实现了promax的效果

与现有方法相比，LLaMA-VID所提出的创新之处在于，仅用2个Token来处理视频中的图片即已大幅超越以往的模型,在MSVD-QA，MSRVTT-QA，ActivityNet-QA等多个视频问答和推理的榜单上实现了SOTA。而随着语言模型的增大，效果还能进一步增强。

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

而面对现有的多模态模型如LLaVA-1.5，LLaMA-VID仅需加入1个所提出的上下文编码 (Context Token)拓展，能在GQA、MMBench、MME、SEED等8个图片问答指标上获得显著的提升：

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

值得一提的是，LLaMA-VID的视频理解和推理能力已经出了Demo，可以在线跟电影对话的那种。

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

操作也极其简单，只需选择电影海报和对应的电影段，即可直接和电影交流（部署在单块3090，需要的小伙伴可以参考code用更大的显存部署，直接和整个电影对话）。

同时也支持用户上传短视频进行互动。

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

如果对描述指令有疑惑的，Demo也给出了一些示例，感兴趣的小伙伴们不妨来pick一下这个电影搭子。连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

Github地址：

Demo地址:

论文地址：

参考文献

[1] Hang Zhang, Xin Li, and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv:2306.02858, 2023.

[2] KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, and Yu Qiao. Videochat: Chat-centric video understanding. arXiv:2305.06355, 2023.

[3] Muhammad Maaz, Hanoona Rasheed, Salman Khan, and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. arXiv:2306.05424, 2023.

版权文章，未经授权禁止转载。详情见转载须知。

本文地址： https://www.gpxz.com/article/f4ea9479d5623ec9219f.html

上一篇：不应该模仿人类AIMichael市场智能更重要Jor

下一篇：高分低能一秒侦破大模型贾佳亚团队联手剑桥

胖鲸

独立会员制营销创新趋势研究智库

网络营销 2026-01-21 11:44:10

长庆婚庆

电影视频 2026-01-25 01:03:07

辽宁腾坤律师事务所

法律律师 2026-01-25 23:12:00

四川宝兴三兴汉白玉开发有限公司

秉承的原则是：办好一个企业，带活一片经济，致富一方百姓。

编程开发 2026-01-28 20:18:10

黑桃网

黑桃互动（上海黑桃互动网络科技有限公司）专注移动游戏产品发行与运营。黑桃互动始终坚持快速、专注、有效、有深度的游戏发行和运营,让每个人玩到最好玩的游戏。黑桃互动旗下目前分别有《莽荒纪》、《唐门》、《古龙群侠传》、《新世纪福音战士》等游戏产品。

游戏网游 2026-01-28 22:34:48

无人门店系统

电影视频 2026-01-28 23:01:54

天津世纪万达不锈钢销售有限公司

电影视频 2026-01-28 23:04:56

理士国际

理士国际为中国领先的蓄电池制造商和出口商,主营太阳能蓄电池、汽车蓄电池、摩托车蓄电池、电动车蓄电池、锂电池，运用于电信，UPS,储能，轨道交通，动力等场景。

网络应用 2025-01-30 15:55:19

防伪标签定制

防伪码中心是专注防伪标签定制，防伪标印刷的防伪厂家，专注防伪标签定制数十年，防伪厂家提供各种防伪标印刷。

电影视频 2026-01-29 19:25:21

方舟志云

方舟志云是优质的代办公司服务商.为北京,上海,广州等全国中小企业提供增值电信业务经营许可证办理,ICP许可证,edi许可证,idc许可证,isp许可证,网络文化经营许可证办理,代理记账等企业资质代办

网络应用 2025-02-06 15:37:44

乘客电梯

公司产品涵盖乘客电梯、别墅电梯、观光电梯、载货电梯、汽车电梯、自动扶梯、自动人行道、液压电梯等十大系列,40多个品种,除满足国内市场产品需求外，还出口巴西、墨西哥、俄罗斯、澳大利亚、日本、萨尔瓦多等二十几个国家和地区。

汽车一族 2025-02-24 19:07:16

软件下载

游迅网致力于为广大互联网用户打造一站式移动应用下载平台。这里汇聚最新、最热门的安卓与苹果app资源，从类精品应用软件到好玩游戏全部应有尽有，覆盖全品类需求；同时精选装机必备手机应用，无需繁琐筛选，轻松满足日常使用场景。

游戏网游 2026-02-03 18:47:01

沃尔玛居首苹果第三 2017 财富美国500强公布 (沃尔玛苹果)

据科技博客9to5mac北京时间6月8日报道，苹果公司可能是按市值计算全球最大的公司，但它并没有统治所有排名，财富，杂志在周三发布了2017年美国500强榜单，按照年营收计算，苹果位居第三，和去年排名一样，总体来看，，财富，美国500强公司占据了美国国内生产总值，GDP，的三分之二，总营收为12万亿美元，总利润为8900亿美元，总市...。

2025-01-30 19:32:45

非常实用 BAT旗下的这几个良心网站 (非常实用什么意思)

百度DOC，word.baidu.com实现文档的在线编辑、保存、分享，百度脑图，naotu.baidu.com百便捷的脑图编辑工具，让您在线上直接创建、保存并分享你的思路，免安装，云存储，易分享，体验舒适功能丰富，腾讯Canvas，canvas.qq.com提供海量模板素材的免费在线图片设计工具，拖拽作图操作简单，设计小白也可...。

2025-01-30 17:57:21

加盟Treblebass国际音乐早教品牌好评率高 (加盟TREK自行车店要多少钱)

早教所存在的意义，就是赋予孩子童年生活较好的价值观，所树立的不仅是知识的接触，更重要的是建设一个学习的习惯，为踏入幼儿园做一个不错的衔接，是引起了各位家长们较大的重视度，除了一些传统的早教品牌之外，现在是繁衍了非常多的艺术类早教品牌，都是收获了不错的反响，其中Treblebass音乐早教是一家国际化的品牌，所带来的音乐教育，专业性很强...。

2024-12-21 18:34:48

百度云首次披露业绩数据BAT稳坐国内公有云前三 (百度网盘首次18元后续是多少)

互联网巨头BAT霸榜国内公有云前三，这是否说明公有云市场趋于集中，雷锋网消息，2月22日百度公布了2018财年第四季度未经审计的财务报告，本季度百度营收272亿元人民币，同比增长22%，净利润21亿元人民币，值得关注的是，在财报公布之后的财报电话会议上，百度云首次公布了其业绩数据，百度云季度营收破十亿百度方面宣布，百度云业务在2018...。

2024-12-10 01:32:31

法雷奥的自动驾驶全景拼图 (法雷奥自动驾驶)

今年的CES，汽车依旧是这场科技大秀主角，在这场科技大秀里头，Tier1是台柱之一，安波福、博世、采埃孚、大陆、法雷奥都纷纷秀了一把肌肉，积极地展现面向未来移动出行的时代的技术储备，2015年，法雷奥作为首批汽车行业及移动出行解决方案提供商亮相于CES；六年后，法雷奥的自动驾驶矩阵越发完整，从48伏系统供电、到行人意图判断，MoveP...。

2024-12-09 19:29:32

父亲和母亲哄孩子睡觉两者之间有什么不同的特点 (父亲和母亲哄睡的区别)

有了孩子之后，似乎父母全身心的关注点全都放在了孩子身上，要说在照顾孩子的过程中什么事情最令父母手足无措，那一定就是哄孩子睡觉了，尤其是有些婴儿比较黏人，只能在父母的怀抱中才能睡得着，一旦放下就会立马哇哇大哭，这种情况下更是让父母们头痛不已，但其实哄孩子睡觉也是一门学问，尤其是爸爸和妈妈哄孩子睡觉还有明显的区别，妈妈哄睡着的孩子更加的安...。

2024-11-18 21:43:38

在哪里下载百度手机助手 (如何下载百度百科)

网络手机助手网络手机助手是一款手机客户端允许对手机启动软件治理，图片治理，影音治理和电子书治理百度手机助手怎样下载，网络手机助手下载步骤，1、网络搜查，网络手机助手，主要字，2、在弹出的结果页面中，点击，立刻下载，按钮即可，旧版百度手机助手怎样下载1、关上手机阅读器，下载装置，安智市场，或许，安卓市场，软件，安智市场，和，安卓市场，是...。

2024-07-08 20:53:27

比亚迪e2在临沂可以操持网约车营运证吗 (比亚迪e2在哪里插u盘)

可以，e2的一切车型都可以注册滴滴和一切平台网约车，只需比亚迪e2合乎网约车的规范的就可以操持网约车经营证，详细步骤如下，1、首先须要持有待办车辆的行驶证，否则就不能操持，2、其次须要驾驶证和货运车辆的从业资历，这两样可以是车主自己的亦可以借他人的，只需是同一团体就行，3、最后到汽车检测站做车辆技术等级评定，要拿报告单，顺便在那里给车...。

2024-07-07 23:47:29

江西颁布高温黄色预警部分地域可达37℃ (江西颁布高温补贴)

江西省气候台2024年7月3日16时32散颁布高温黄色预警信号，估量未来三天，九江、景德镇、南昌、萍乡、宜春、新余、鹰潭、上饶、抚州、吉安十市和赣州市北部日最高气温将达35℃以上，部分地域可达37℃，请留意防暑降温，高温预警级别颜色等级有哪些1.热浪滚滚！今日中午，亚洲气温分布图显示出全国多地气温上升，特别是北京、潍坊、邯郸、周口等城...。

2024-07-04 14:28:40

若航行员掩埋异国莫悔恨专家正告美闯中国禁飞区 (若航行员掩埋怎么办)

原题目，美军U，2擅闯我演习禁飞区专家正告，美军莫让航行员掩埋异国异地而悔恨[全球时报，全球网报道记者郭媛丹]25日晚，国防部资讯发言人吴谦宣布说话，对当日美军机擅闯我演习禁飞区示意波动推戴，相关专家对，全球时报，示意，这是一种风险性极高的寻衅行为，美方此举无疑为中美双方或者迸发的危机又添了一把火，吴谦示意，25日今日，美U，2空中侦...。

2024-07-03 19:45:21

丰田sienna是什么车 (丰田sienta)

是丰田推出的塞纳车型，属于MPV该车型，也可称为商用车，于2011年正式推出，装备双侧电吸滑门、多性能方向盘和镀铬后视镜，丰田sienna车型多少钱2015款丰田塞纳车型经销商的参考多少钱在45万元至72万元之间，目前，它已中止开售，如今可以买到的车基本上都是二手车，二手车的多少钱取决于车辆的状况，新的塞纳车型尚未上市，假设你想买，你...。

2024-07-03 01:09:40

惠普中国官方在哪 (惠普中国官方旗舰店和惠普京东自营旗舰店)

惠普中国官方的网址是，[，]，惠普，HP，作为世界出名的科技公司，在中国设有官方网站，繁难中国用户失掉最新的产品消息、技术允许以及售后服务，经过访问惠普中国官方，用户可以阅读到惠普的各类产品，包含团体电脑、打印机、主机等，以及关系的处置打算和服务，此外，官方还提供了在线购置、技术允许、驱动程序下载等配置，为用户提供了片面的服务体验，在...。

2024-06-30 13:13:54

文章推荐

360 我发现了网红重庆的另一个标签参观了网络安全协同产业基地后 (发现360安全浏览器)

说到重庆，雷锋网编辑脑海中首先浮现的就是飞越长江的索道，穿楼而过的轻轨，宛如迷宫的立交桥，可刷公交卡的电梯，诙谐直爽的方言，流光溢彩的夜景以及百吃不厌的重庆火锅，但据一位在重庆生活了二十几年的，原著民，称，重庆的标签不止于此，当然，重庆的目标也不是成为网红打卡地，网红，重庆不甘网红重庆是个多雾的城市，所以有人说，这是一个不靠近，就不...。

2024-12-03 20:43:43

资讯动态

坚果投影双11全周期战报一路领先持续霸榜！ (坚果投影双清教程视频)

发表在坚果投影仪2024，11，1214，04自坚果投影仪发布坚果N1系列以来，坚果投影仪的销量就打破颓势，飞速猛涨，今年发布坚果N3系列后，在2024双十一活动中获得优异成绩，实现全面霸榜的情况！坚果投影仪双十一全网GMV同比近三位数增长，天猫重回投影仪品牌TOP1！全网4K投影仪品牌TOP1！全网激光投影仪品牌！坚果投影仪在全网销...。

2024-11-28 13:58:10

网络百科

淘宝100W 镇宅神器楼上的安静了 (淘宝100w快充套装是真的吗能买吗)

如果你在百度搜索，楼上安静，几个字，相关结果达到614万个，可见钢筋水泥之间，噪音已经成为影响邻里之间安宁的祸患之一，看网友现身说法，楼上每晚十点以后都特别活跃，叮咣的不知道在干嘛，得夜里一两点钟才踏实，找过几次不管用，素质觉悟没法沟通，每晚骂楼上几次已经成为我的习惯了，希望他们赶紧搬走，这是我今年最大的愿望了，难道就这么忍耐?NO，...。

2024-11-26 17:44:06

网络百科

2016香港国际春季灯饰展

香港国际春季灯饰展览会是由香港贸易发展局主办，旨在向来自全球的买家展出较新颖的灯饰产品，为各地商家提供好的贸易平台，促进灯饰领域在国际间的交流与合作，该展至2015年已成功举办七届，规模逐年扩大，并与每年十月举行的香港国际灯饰展互为姊妹展，为灯饰业买卖双方带来每年两度沟通交流、洽谈合作的机会，香港国际灯饰展自1999年举办以来，经过十...。

2024-11-23 00:21:40

创业加盟

必定在今秋末完结抵触这月没钱给部队发工资了！泽连斯基乌初级议员

外地期间周五，6日，，乌克兰议会估算委员会主席罗科索娜拉·皮德拉萨在乌电视台宣布讲话时称，乌克兰军方本月，9月，曾经没有足够的资金来全额支付前线战士的工资，与此同时，乌克兰总统泽连斯基继续向北约施压，索取武器，据央视资讯报道，泽连斯基6日达到位于德国的拉姆施泰因空军基地，缺席乌克兰国防联系小组会议，并于会上会晤美国国防部长奥斯汀和德国...。

2024-11-13 00:11:47

插件媒体

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界 (看看好莱坞大片)

相关文章

文章推荐