腾讯版Sora发布即开源!130亿参数 推理代码全开放 模型权重 (腾讯版sora)

梦晨 西风 发自 凹非寺

量子位 | 公众号 QbitAI

腾讯版Sora,发布即开源!

,成为目前参数量最大的开源视频生成模型。 模型权重、推理代码、模型算法 等全部上传GitHub与Hugging Face,一点没藏着。

实际效果如何呢?

不瞒你们说,我真的看见一只大熊猫,在跳广场舞、吃火锅、打麻将,请看VCR:

到底是来自四川的猫!

目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。

开发者可通过腾讯云接入。

腾讯混元视频生成主打四大特点:

那么实际表现能否符合描述?下面结合实例一一拆解。

实测腾讯首个文生视频模型

腾讯版Sora即开源130亿参数推理代

首先是冲浪题材,涉及到画面大幅度运动,水的物理模拟等难点。

提示词中还特别指定了摄像头的运动,腾讯混元表现出流畅运镜的能力,只是在“最后定格在…”这个要求上稍显不足。

提示词:超大海浪,冲浪者在浪花上起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

镜子题材,考验模型对光影的理解,以及镜子内外主体运动是否能保持一致。

提示词中的白床单元素又加大了难度,涉及到的布料模拟,也符合物理规律。

不过人们想象中的幽灵一般没有脚,AI似乎没学到,又或者是跳舞涉及大量腿部动作,产生了冲突。

穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。幽灵在镜子前跳舞。电影氛围,电影打光。

再来一个综合型的复杂提示词,对主角外貌、动作、环境都有细致描述,画面中还出现其他人物,腾讯混元表现也不错。

特写镜头拍摄的是一位60多岁、留着胡须的灰发男子,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,他的眼睛聚焦在画外走动的人们身上,而他自己则基本一动不动地坐着,他身穿羊毛大衣西装外套,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有教授风范,片尾他露出一丝微妙的闭嘴微笑,仿佛找到了生命之谜的答案,灯光非常具有电影感,金色的灯光,背景是巴黎的街道和城市,景深,35毫米电影胶片。

最后附上来自官方的写prompt小tips:

更多腾讯混元生成的视频,以及与Sora同提示词PK,还可以看看量子位在内测阶段的尝试。

最大的开源视频生成模型。

看完效果,再看看技术层面有哪些亮点。

首先从官方评估结果看,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先。

然后从目前公开资料看,腾讯混元视频生成模型还有三个亮点。

1、文本编码器部分,已经适配多模态大模型

当下行业中多数视觉生成模型的文本编码器,适配的主要是上一代语言模型,如OpenAI的CLIP和谷歌T5及各种变种。

腾讯在开源图像生成模型Hunyuan-DiT中适配的是T5和CLIP的结合,这次更进一步,直接升级到了新一代多模态大语言模型(MultiModal Large Language Model)。

由此能够获得更强大的语义跟随能力,体现在能够更好地应对画面中存在的多个主体,以及完成指令中更多的细节。

2、视觉编码器部分,支持混合图片/视频训练,提升压缩重建性能

视频生成模型中的视觉编码器,在压缩图片/视频数据,保留细节信息方面起着关键作用。

混元团队自研了3D视觉编码器支持混合图片/视频训练,同时优化了编码器训练算法,显著提升了编码器在快速运行、纹理细节上的压缩重建性能,使得视频生成模型在细节表现上,特别是小人脸、高速镜头等场景有明显提升。

3、从头到尾用full attention(全注意力)的机制,没有用时空模块,提升画面流畅度。

混元视频生成模型采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换。

与“分离的时空注意力机制”分别关注视频中的空间特征和时间特征,相比之下,全注意力机制则更像一个纯视频模型,表现出更优越的效果。

更多细节,可以参见完整技术报告~

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态


本文地址: https://www.gpxz.com/article/b9fe09c5cc5dc16d81c2.html
全局中部横幅
全局中部横幅
杭州曼哈顿KTV订房

杭州高端商务KTV预订服务平台订房电话:18758265455,专为精英人士打造一站式杭州商务KTV解决方案!我们深耕杭州商务娱乐领域多年,凭借极速预订通道、明码标价酒水单、专属豪车接送、资深商务经理全程接待四大核心优势,成为杭州地区KTV搜索“杭州商务KTV预订”高排名优选品牌,助力客户快速锁定优质资源!提供客户杭州KTV选择我们和杭州天际线、NOC、曼哈顿、IN11KTV还有BBRKTV、TSKTV等杭州高端ktv一起共创杭州KTV订房网,我们的优势有:3分钟极速订房:24小时在线客服+智能选房系统,输入需求即秒级匹配豪华包间、中型派对房及总统套间,支持微信/支付宝担保预订,到店无隐形消费.1:酒水价格全网透明:官网公示全系列酒水价目表(洋酒/红酒/香槟/啤酒),套餐人均消费300元起,开台即赠果盘小吃,杜绝“低消陷阱”.2:高端礼宾车队接送:覆盖杭州全城(钱江新城、西湖区、萧山区、拱墅区等),奔驰/宝马级专车免费接送,解决商务客户出行痛点.3:VIP商务经理1对1服务:从业5年以上资深经理全程陪同,从选房、接待到离开KTV无缝衔接,量身定制客户答谢宴、商务洽谈等场景服务、生日派对,私人聚会等.

丸氏3D打印共性技术服务平台

增材制造服务,3D打印技术服务,小批量试制,增材制造新质生产

BB机

bb机海报专门提供影视高清无水印电影海报,电影海报轮播图,电视剧幻灯片各类影视剧集1920P高清影视海报图片素材等资源!

图虫创意

图虫创意:4.6亿+正版商用图片/视频/音频,官方授权、一次购买永久用,覆盖人物/风景/动物/美食/旅游/建筑/时尚等多类别,适用于设计/广告等场景;图虫网:800万+摄影师入驻的优质摄影社区,支持作品上传分享,提供图虫APP下载。

广东不锈钢玻璃防火门

广东固盾防火门生产厂家全国销售电话:18075925566专业生产销售钢质防火门,不锈钢防火玻璃门,不锈钢玻璃防火门,不锈钢防火门,KTV不锈钢防火门,电影院隔音防火门,防火卷帘门,木质防火门芯,防火窗.固盾防火门产品通过国家防火门3C强制性认证。公司具有一批优秀防火门设计师团队,采用防火门自动生产线流水作业,以优惠的防火门价格,过硬的防火门质量保证防火门通过消防验收标准赢得大批客户好评。

沥青贴缝带,灌缝胶,灌缝沥青,冷补料,密封胶等道路裂缝修补材料生产厂家

嘉格伟业筑路科技有限公司是一家集公路养护产品研发生产销售企业,养护主营:沥青贴缝带,灌缝胶,冷补料,网裂贴,单组份聚氨酯道路密封胶,路面贴缝带,抗裂贴等高品质沥青水泥混凝土路面裂缝修补材料,厂家价格直销,同时诚招全国经销商代理商,欢迎来电咨询。

QQ分类目录

QQ分类目录(qqdir.com)专业领先的网站目录平台,专注于免费提交和整理国内各行业排名前列的众多知名网站,我们的目标是打造一个全面、权威、专业的网站目录平台,助力用户快速定位所需信息,提升网络浏览效率。

佳武

上海佳武自动化科技有限公司,佳武工控商城,工控自动化产品,B2B2C一站式采购平台,集国内外众多自动化优秀品牌厂家、代理商、分销商,全球互联,正品保障,安全交易,为您提供最优最全的产品。

广东山高刀具

广东山高刀具制造有限公司致力于广东山高刀具、广东YFT铣刀的生产与销售多年,拥有科学、完整的质量管理体系,欢迎各界朋友莅临广东山高刀具参观、指导与合作洽谈。

深圳网站建设

【关于】杰思网络深耕IT互联网项目策划、设计、开发、建设10余年 【服务】√UI设计√网站建设√全流程建站-推广√微信小程序制作√网络营销口碑建立百度百科词条知乎问答

全局底部横幅