模型权重 推理代码全开放 腾讯版Sora发布即开源!130亿参数 (模型权重推理怎么做)

梦晨 西风 发自 凹非寺

量子位 | 公众号 QbitAI

腾讯版Sora,发布即开源!

,成为目前参数量最大的开源视频生成模型。 模型权重、推理代码、模型算法 推理代码全开放腾讯版Sora发布即开 等全部上传GitHub与Hugging Face,一点没藏着。

实际效果如何呢?

不瞒你们说,我真的看见一只大熊猫,在跳广场舞、吃火锅、打麻将,请看VCR:

到底是来自四川的猫!

目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。

开发者可通过腾讯云接入。

腾讯混元视频生成主打四大特点:

那么实际表现能否符合描述?下面结合实例一一拆解。

实测腾讯首个文生视频模型

首先是冲浪题材,涉及到画面大幅度运动,水的物理模拟等难点。

提示词中还特别指定了摄像头的运动,腾讯混元表现出流畅运镜的能力,只是在“最后定格在…”这个要求上稍显不足。

提示词:超大海浪,冲浪者在浪花上起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

镜子题材,考验模型对光影的理解,以及镜子内外主体运动是否能保持一致。

提示词中的白床单元素又加大了难度,涉及到的布料模拟,也符合物理规律。

不过人们想象中的幽灵一般没有脚,AI似乎没学到,又或者是跳舞涉及大量腿部动作,产生了冲突。

穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。幽灵在镜子前跳舞。电影氛围,电影打光。

再来一个综合型的复杂提示词,对主角外貌、动作、环境都有细致描述,画面中还出现其他人物,腾讯混元表现也不错。

特写镜头拍摄的是一位60多岁、留着胡须的灰发男子,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,他的眼睛聚焦在画外走动的人们身上,而他自己则基本一动不动地坐着,他身穿羊毛大衣西装外套,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有教授风范,片尾他露出一丝微妙的闭嘴微笑,仿佛找到了生命之谜的答案,灯光非常具有电影感,金色的灯光,背景是巴黎的街道和城市,景深,35毫米电影胶片。

最后附上来自官方的写prompt小tips:

更多腾讯混元生成的视频,以及与Sora同提示词PK,还可以看看量子位在内测阶段的尝试。

最大的开源视频生成模型。

看完效果,再看看技术层面有哪些亮点

首先从官方评估结果看,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先。

然后从目前公开资料看,腾讯混元视频生成模型还有三个亮点。

1、文本编码器部分,已经适配多模态大模型

当下行业中多数视觉生成模型的文本编码器,适配的主要是上一代语言模型,如OpenAI的CLIP和谷歌T5及各种变种。

腾讯在开源图像生成模型Hunyuan-DiT中适配的是T5和CLIP的结合,这次更进一步,直接升级到了新一代多模态大语言模型(Multimodal Large Language Model)。

由此能够获得更强大的语义跟随能力,体现在能够更好地应对画面中存在的多个主体,以及完成指令中更多的细节。

2、视觉编码器部分,支持混合图片/视频训练,提升压缩重建性能

视频生成模型中的视觉编码器,在压缩图片/视频数据,保留细节信息方面起着关键作用。

混元团队自研了3D视觉编码器支持混合图片/视频训练,同时优化了编码器训练算法,显著提升了编码器在快速运行、纹理细节上的压缩重建性能,使得视频生成模型在细节表现上,特别是小人脸、高速镜头等场景有明显提升。

3、从头到尾用full attention(全注意力)的机制,没有用时空模块,提升画面流畅度。

混元视频生成模型采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换。

与“分离的时空注意力机制”分别关注视频中的空间特征和时间特征,相比之下,全注意力机制则更像一个纯视频模型,表现出更优越的效果。

更多细节,可以参见完整技术报告~

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态


本文地址: https://www.gpxz.com/article/55f64964264d5ae050a2.html
全局中部横幅
全局中部横幅
美国香港海外云服务器

纵横数据成立于2005年,是业内知名的企业级高可用云服务器提供商!主营全球服务器租用与托管、国内云主机、海外云服务器、动态拨号VPS、显卡服务器、大带宽服务器等一站式全球IT网络解决方案提供商。纵横数据一直致力于全球互联网数据基础业务和网络营销解决方案的实施,是一家极富创新性的科技公司。

中学课件网

中学课件网为您提供优秀的初中|高中ppt课件下载与赏析,涵盖语文、数学、英语等全部9个学科。得益于学科网优质的教学资源,中学课件网将全力打造更专业的中学课件资源网。

付杰博客

IT技术交流,IT经验分享:关注SEO、建站、站长、网络推广、互联网、PHP、Mysql、Nginx/Apache、linux/windows服务器......知识。

优质中大型轴承:冶金

瓦房店中北轴承制造有限公司提供多种高品质中大型轴承,包括冶金轴承、轧机轴承、矿山轴承等,满足您的各种需求。

全自动温控翻转振荡器

杭州米优自动化技术有限公司(www.muzdh.cn)主营单孔单控土壤干燥箱,平板式翻转振荡器,多功能水平振荡器,全自动温控翻转振荡器等产品,本公司从事实验室样品前处理设备的生产、研发与销售,欢迎新老客户来电洽谈

润滑油厂家

成都迈斯拓公司拥有30多年从事内燃机润滑油、抗结焦(长寿命)导热油、液压油、齿轮油、金属加工油、压缩机油、金属处理器油、减震器油、变速箱油、润滑脂等产品的研发团队;取得多项专利技术、测试技术专利;是国家高新技术企业,通过ISO9001国家质量体系认证和ISO14001环境质量管理体系认证;导热油在线再生复合添加剂被评为2015年成都市重点新产品。

腾讯地图代理商

腾讯地图服务商业服务版本授权,地图标注SDK开发,腾讯地图服务商对接各种需要使用腾讯地图免费服务联系我们wx:qcloud0755

可兰素

江苏可兰素环保科技有限公司成立于2009年8月,是一家生产车用AdBlue及车用AdBlue加注设备、工业脱硝还原剂、防冻液以及汽车环保类产品的高科技产业。

深圳市四方智源科技有限公司

深圳市四方智源科技有限公司(四方智源),作为新兴的勘察设计行业信息化服务提供商,由从业多年的勘察设计行业专家级IT人士领军组成,拥有十余年行业信息化研发经验以及多名行业信息化一线专家组成的专家资源(并在不断扩充中)。

轿运车

长久汽车制造有限公司是长久集团旗下的全资子公司,拥有滁州、吉林、北京三大生产基地,生产能力30000台/年。公司建立了完善的质量保证体系,通过了IS9001、2015认证和CCC产品认证,获得了100余项国家专利,其中30余项发明型专利。公司积极布局平台化产品发展战略,拥有中置轴、甩厢车两大核心技术平台7大产品系列100余个产品,中置轴、空气悬挂、液压甩箱机构是我们的核心技术。

万邦物流平台

万邦物流网为您提供全国物流专线、物流公司、货运物流查询、国际物流、物流展会、物流资讯等物流行业信息,打造一流的全国物流信息查询网。要发货上万邦。

全局底部横幅