DALL (dall-e)

文章编号:43964 资讯动态 2024-12-09 CLIP 2 OpenAI DALL E GLIDE 工作原理

DALL-E 2的工作原理原来是这样!

OpenAI的模型DALL-E 2于本月初发布,刚一亮相,便在图像生成和图像处理领域卷起了新的风暴。

只需要给到寥寥几句文本提示,DALL-E 2就可以按文本指示生成全新图像,甚至能将毫不相关的物体以看似合理的语义方式组合在一起。

比如用户输入提示“一碗汤是另一个次元的入口”后,DALL-E 2便生成了以下的魔幻图片。

DALL-E 2的工作原理原来是这样!

“一碗汤是另一个次元的入口”

DALL-E 2不仅能按用户指令生成明明魔幻,却又看着十分合理不明觉厉的图片。作为一款强大的模型,目前我们已知DALL-E 2还可以:

感觉有了DALL-E 2,艺术家都可以下岗了。

DALL-E 2目前曝光的功能令人瞠目结舌,不禁激起了众多AI爱好者的讨论,这样一个强大模型,它的工作原理到底是什么?!



工作原理:简单粗暴
DALL-E 2的工作原理原来是这样!

"一只在吹喷火喇叭的柯基”——DALL-E 2图片生成流程解析图源:

针对图片生成这一功能来说,DALL-E 2的工作原理剖析出来看似并不复杂:




工作细节:处处皆奥妙

可是以上步骤说起来简单,分开看来却是每一步都有很大难度,让我们来模拟DALL-E 2的工作流程,看看究竟每一步都是怎么走通的。

我们的第一步是先看看DALL-E 2是怎么学习把文本和视觉图像联系起来的。

第一步 - 把文本和视觉图像联系起来

输入“泰迪熊在时代广场滑滑板”的文字提示后,DALL-E 2生成了下图:

DALL-E 2的工作原理原来是这样!

DALL-E 2是怎么知道“泰迪熊”这个文本概念在视觉空间里是什么样子的?

其实DALL-E 2中的文本语义和与其相对的视觉图片之间的联系,是由另一个OpenAI模型CLIP(ontrastiveanguage-magere-training)学习的。

CLIP接受过数亿张图片及其相关文字的训练,学习到了给定文本片段与图像的关联。

也就是说,CLIP并不是试图预测给定图像的对应文字说明,而是只学习任何给定文本与图像之间的关联。 CLIP做的是对比性而非预测性的

整个DALL-E 2模型依赖于CLIP从自然语言学习语义的能力,所以让我们看看如何训练CLIP来理解其内部工作。

训练CLIP的基本原则非常简单:

DALL-E 2的工作原理原来是这样!

,因为CLIP才是那个把自然语言片段与视觉概念在语义上进行关联的存在,这对于生成与文本对应的图像来说至关重要。

第二步 - 从视觉语义生成图像

训练结束后,CLIP模型被冻结,DALL-E 2进入下一个任务——学习怎么把CLIP刚刚学习到的图像编码映射反转。CLIP学习了一个表示空间,在这个表示空间当中很容易确定文本编码和视觉编码的相关性, 我们需要学会利用表示空间来完成反转图像编码映射这个任务。

而OpenAI使用了它之前的另一个模型GLIDE的修改版本来执行图像生成。GLIDE模型学习反转图像编码过程,以便随机解码CLIP图像嵌入。

DALL-E 2的工作原理原来是这样!

“一只吹喷火喇叭的柯基”一图经过CLIP的图片编码器,GLIDE利用这种编码生成保持原图像显著特征的新图像。

如上图所示,需要注意的是,我们的目标不是构建一个自编码器并在给定的嵌入条件下精确地重建图像,而是在给定的嵌入条件下生成一个保持原始图像显著特征的图像。为了进行图像生成,GLIDE使用了扩散模型( Diffusion Model )。

扩散模型是一项受热力学启发的发明,近年来越来越受到学界欢迎。扩散模型学习通过逆转一个逐渐噪声过程来生成数据。如下图所示,噪声处理过程被视为一个参数化的马尔可夫链,它逐渐向图像添加噪声使其被破坏,最终(渐近地)导致纯高斯噪声。扩散模型学习沿着这条链向后走去,在一系列步骤中逐渐去除噪声,以逆转这一过程。

DALL-E 2的工作原理原来是这样!

如果训练后将扩散模型“切成两半”,则可以通过随机采样高斯噪声来生成图像,然后对其去噪,生成逼真的图像。大家可能会意识到这种技术很容易令人联想到用自编码器生成数据,实际上扩散模型和自编码器确实是相关的。

虽然GLIDE不是第一个扩散模型,但其重要贡献在于对模型进行了修改,使其能够生成有文本条件的图像。

GLIDE扩展了扩散模型的核心概念,通过增加额外的文本信息来增强训练过程,最终生成文本条件图像。让我们来看看GLIDE的训练流程:

DALL-E 2的工作原理原来是这样!

下面是一些使用GLIDE生成的图像示例。作者指出,就照片真实感和文本相似度两方面而言,GLIDE的表现优于DALL-E(1)。

DALL-E 2的工作原理原来是这样!

由GLIDE生成的图像示例 图源

DALL-E 2使用了一种改进的GLIDE模型,这种模型以两种方式使用投影的CLIP文本嵌入。第一种方法是将它们添加到GLIDE现有的时间步嵌入中,第二种方法是创建四个额外的上下文标记,这些标记连接到GLIDE文本编码器的输出序列。

GLIDE对于DALL-E 2亦很重要,因为GLIDE能够将自己按照文本生成逼真图像的功能移植到DALL-E 2上去,而无需在表示空间中设置图像编码。因此,DALL-E 2使用的修改版本GLIDE学习的是根据CLIP图像编码生成语义一致的图像。

第三步 - 从文本语义到相应的视觉语义的映射

到了这步,我们如何将文字提示中的文本条件信息注入到图像生成过程中?

回想一下,除了图像编码器,CLIP还学习了文本编码器。DALL-E 2使用了另一种模型,作者称之为先验模型,以便从图像标题的文本编码映射到对应图像的图像编码。DALL-E 2的作者用自回归模型和扩散模型进行了实验,但最终发现它们的性能相差无几。考虑到扩散模型的计算效率更高,因此选择扩散模型作为 DALL-E 2的先验。

DALL-E 2的工作原理原来是这样!

从文本编码到相应图像编码的先验映射

DALL-E 2中扩散先验的运行顺序是:

现在,我们已经拥有了DALL-E 2的所有“零件”,万事俱备,只需要将它们组合在一起就可以获得我们想要的结果——生成与文本指示相对应的图像:

DALL-E 2的工作原理原来是这样!

DALL-E 2图像生成流程的高级概述

以上就是DALL-E 2的工作原理啦~

DALL-E 2的工作原理原来是这样!

版权文章,未经授权禁止转载。详情见 转载须知 。

DALL-E 2的工作原理原来是这样!


本文地址: https://www.gpxz.com/article/7526b20a9e3c40e38206.html
全局中部横幅
全局中部横幅
宝宝起名

大运起名网专注于新生宝宝生辰八字起名,取名,姓名测试领域.累计给全国三十余万新生宝宝提供了好听,吉祥,大气的男孩起名,女孩起名,名字打分服务,是宝宝起名取名的首选起名网站

扬州先锋化工有限公司

扬州先锋化工有限公司-先锋拥有专业的农化团队,为客户提供从配方、剂型、药理、植保等方面专业的农化知识服务,并以“先锋”为品牌,和客户深层次的合作,在俄罗斯、乌克兰、白俄罗斯、摩尔多瓦、土耳其、也门、埃及、美国、巴拉圭等国家进行农药等级,取得农药登记证近百个。

台式车床

无锡市帕沃尔科技有限公司专注于台式车床,工装治具,冷冻机的制造、销售和服务.力图用精湛的技术为广大国内外客户提供全面的现场解决方案以及完善的产品与服务.

台聚亚克力

无边泳池,透明游泳池,亚克力游泳池,亚克力厚板,英国露彩特原材料厂家

中投华创

中投华创主张以互联网新技术加资本力量赋能创业成功!自成立以来独立或联合举办800+场次创业及资本对接活动,服务并陪跑了6000家以上企业。

VOLAR

Volarisaprofessional,agileandinternationalplasticschemicalsupplier,specialisingintheplasticsanditsproductsindustryformorethan10years,

Leaf站点

Leaf内容管理系统,企业建站首选,基于.netcore开源免费高性能,新闻发布系统

简设计

简设计众包设计平台,为广大的设计师团队提供了一个发挥自己才能的平台,工作时间自由

飞讯网络

湖北飞讯网络有限公司成立于2011年,是一家经国家工业和信息化部批准的从事互联网数据中心业务、互联网接入服务业务、互联网内容分发业务、互联网域名解析服务业务、互联网资源协作服务业务、互联网信息服务业务、计算机系统集成及计算机软硬件开发得高新技术企业。飞讯网络

高德设计

昆明高德建筑装饰工程设计有限公司拥有各类行内资深设计师,专注于酒店设计,会所设计,夜场设计,别墅设计的高端设计师团队。与港台知名设计公司长期有着深度合作,已成功服务多项大型工程设计,在酒店娱乐会所项目的设计理念上已经处于领先地位。本设计机构将以独特的设计,优秀的品质,合理的价格,专业的服务作为自己的追求。


全局底部横幅