DALL (dall-e)

文章编号：43964 资讯动态 2024-12-09 CLIP 2 OpenAI DALL E GLIDE 工作原理

DALL-E 2的工作原理原来是这样！

OpenAI的模型DALL-E 2于本月初发布，刚一亮相，便在图像生成和图像处理领域卷起了新的风暴。

只需要给到寥寥几句文本提示，DALL-E 2就可以按文本指示生成全新图像，甚至能将毫不相关的物体以看似合理的语义方式组合在一起。

比如用户输入提示“一碗汤是另一个次元的入口”后，DALL-E 2便生成了以下的魔幻图片。

“一碗汤是另一个次元的入口”

DALL-E 2不仅能按用户指令生成明明魔幻，却又看着十分合理不明觉厉的图片。作为一款强大的模型，目前我们已知DALL-E 2还可以：

感觉有了DALL-E 2，艺术家都可以下岗了。

DALL-E 2目前曝光的功能令人瞠目结舌，不禁激起了众多AI爱好者的讨论，这样一个强大模型，它的工作原理到底是什么？！

工作原理：简单粗暴

"一只在吹喷火喇叭的柯基”——DALL-E 2图片生成流程解析图源：

针对图片生成这一功能来说，DALL-E 2的工作原理剖析出来看似并不复杂：

工作细节：处处皆奥妙

可是以上步骤说起来简单，分开看来却是每一步都有很大难度，让我们来模拟DALL-E 2的工作流程，看看究竟每一步都是怎么走通的。

我们的第一步是先看看DALL-E 2是怎么学习把文本和视觉图像联系起来的。

第一步 - 把文本和视觉图像联系起来

输入“泰迪熊在时代广场滑滑板”的文字提示后，DALL-E 2生成了下图：

DALL-E 2是怎么知道“泰迪熊”这个文本概念在视觉空间里是什么样子的？

其实DALL-E 2中的文本语义和与其相对的视觉图片之间的联系，是由另一个OpenAI模型CLIP（ontrastiveanguage-magere-training）学习的。

CLIP接受过数亿张图片及其相关文字的训练，学习到了给定文本片段与图像的关联。

也就是说，CLIP并不是试图预测给定图像的对应文字说明，而是只学习任何给定文本与图像之间的关联。 CLIP做的是对比性而非预测性的

整个DALL-E 2模型依赖于CLIP从自然语言学习语义的能力，所以让我们看看如何训练CLIP来理解其内部工作。

训练CLIP的基本原则非常简单:

，因为CLIP才是那个把自然语言片段与视觉概念在语义上进行关联的存在，这对于生成与文本对应的图像来说至关重要。

第二步 - 从视觉语义生成图像

训练结束后，CLIP模型被冻结，DALL-E 2进入下一个任务——学习怎么把CLIP刚刚学习到的图像编码映射反转。CLIP学习了一个表示空间，在这个表示空间当中很容易确定文本编码和视觉编码的相关性，我们需要学会利用表示空间来完成反转图像编码映射这个任务。

而OpenAI使用了它之前的另一个模型GLIDE的修改版本来执行图像生成。GLIDE模型学习反转图像编码过程，以便随机解码CLIP图像嵌入。

“一只吹喷火喇叭的柯基”一图经过CLIP的图片编码器，GLIDE利用这种编码生成保持原图像显著特征的新图像。

如上图所示，需要注意的是，我们的目标不是构建一个自编码器并在给定的嵌入条件下精确地重建图像，而是在给定的嵌入条件下生成一个保持原始图像显著特征的图像。为了进行图像生成，GLIDE使用了扩散模型（ Diffusion Model ）。

扩散模型是一项受热力学启发的发明，近年来越来越受到学界欢迎。扩散模型学习通过逆转一个逐渐噪声过程来生成数据。如下图所示，噪声处理过程被视为一个参数化的马尔可夫链，它逐渐向图像添加噪声使其被破坏，最终（渐近地）导致纯高斯噪声。扩散模型学习沿着这条链向后走去，在一系列步骤中逐渐去除噪声，以逆转这一过程。

DALL-E 2的工作原理原来是这样！

如果训练后将扩散模型“切成两半”，则可以通过随机采样高斯噪声来生成图像，然后对其去噪，生成逼真的图像。大家可能会意识到这种技术很容易令人联想到用自编码器生成数据，实际上扩散模型和自编码器确实是相关的。

虽然GLIDE不是第一个扩散模型，但其重要贡献在于对模型进行了修改，使其能够生成有文本条件的图像。

GLIDE扩展了扩散模型的核心概念，通过增加额外的文本信息来增强训练过程，最终生成文本条件图像。让我们来看看GLIDE的训练流程：

DALL-E 2的工作原理原来是这样！

下面是一些使用GLIDE生成的图像示例。作者指出，就照片真实感和文本相似度两方面而言，GLIDE的表现优于DALL-E(1)。

由GLIDE生成的图像示例图源

DALL-E 2使用了一种改进的GLIDE模型，这种模型以两种方式使用投影的CLIP文本嵌入。第一种方法是将它们添加到GLIDE现有的时间步嵌入中，第二种方法是创建四个额外的上下文标记，这些标记连接到GLIDE文本编码器的输出序列。

GLIDE对于DALL-E 2亦很重要，因为GLIDE能够将自己按照文本生成逼真图像的功能移植到DALL-E 2上去，而无需在表示空间中设置图像编码。因此，DALL-E 2使用的修改版本GLIDE学习的是根据CLIP图像编码生成语义一致的图像。

第三步 - 从文本语义到相应的视觉语义的映射

到了这步，我们如何将文字提示中的文本条件信息注入到图像生成过程中?

回想一下，除了图像编码器，CLIP还学习了文本编码器。DALL-E 2使用了另一种模型，作者称之为先验模型，以便从图像标题的文本编码映射到对应图像的图像编码。DALL-E 2的作者用自回归模型和扩散模型进行了实验，但最终发现它们的性能相差无几。考虑到扩散模型的计算效率更高，因此选择扩散模型作为 DALL-E 2的先验。

从文本编码到相应图像编码的先验映射

DALL-E 2中扩散先验的运行顺序是：

现在，我们已经拥有了DALL-E 2的所有“零件”，万事俱备，只需要将它们组合在一起就可以获得我们想要的结果——生成与文本指示相对应的图像:

DALL-E 2的工作原理原来是这样！

DALL-E 2图像生成流程的高级概述

以上就是DALL-E 2的工作原理啦~

版权文章，未经授权禁止转载。详情见转载须知。

DALL-E 2的工作原理原来是这样！

本文地址： https://www.gpxz.com/article/7526b20a9e3c40e38206.html

上一篇：CAIIC智能科学与技术将推动2016李德毅主题

下一篇：对OpenAIDALL对openAI的封闭的想法

中金矿业咨询有限公司

中金矿业咨询有限公司是一家全球性的矿业顾问公司,主要从事矿山工程设计、咨询、矿山设备成套供应、工程总承包、工程项目管理和生产服务等业务

设计美化 2026-01-21 12:58:43

卓越食品科技

卓越食品科技是一个全方位的食品科技信息平台，致力于整合食品包装材料、食品机械设备、食品科技技术、食品科技产品以及食品科技知识库等领域的内容。我们提供最新的行业动态、产品信息和技术解决方案，旨在推动食品科技领域的发展和应用。我们的食品科技知识库包含了丰富的食品科学、营养学和食品安全等方面的知识，为您的学习和成长提供有力的支持。我们致力于打造一个全面、专业的食品科技信息平台，为食品行业的发展贡献力量。

网络应用 2026-01-21 13:45:36

中关村在线

中关村在线是大中华区商业价值受到认可和信赖的IT专业门户网站,提供手机,电脑等科技数码的资讯和行情报价.

新闻资讯 2026-01-21 14:44:51

域名注册

新网域名是中国入选全球TOP15的域名注册服务商,.com域名注册位居行业之首.包括中文域名、英文域名及顶级域名注册,域名查询,域名申请,域名购买及域名解析等服务

电影视频 2026-01-21 15:04:03

厦门SEO

厦门狂人网络拥有十年网站优化推广与网络营销经验,业务包括SEO优化、网站优化推广、竞价维护、新媒体运营与网站流量提升等,技术值得信任.

网络应用 2026-01-24 20:59:58

LOGO设计公司

企术是一家专业的logo设计公司Tel：4006-139-8168。提供专业的logo设计、商标设计、网站设计我们服务于各行各业，为企业打造高端的品牌形象，用优秀的视觉冲击，细致的用户体验帮助企业有效提升品牌商业价值。

设计美化 2026-01-25 14:59:13

海门婚介

海门婚介是一家服务于海门、南通等区域内的专业婚介所，为广大未婚、离异者、高端白领提供热情的红娘服务，热线电话：0513-82656513.

网站模板 2026-01-25 18:05:22

北京仕道嘉人传媒有限公司嘉人网

嘉人MarieClaire女性时尚网站,丰富的时尚时装,美妆,美容,明星生活信息,ThinkSmartLookAmazing

明星娱乐 2026-01-28 19:16:24

便携式手术床,野战妇科手术床,便携式病床,便携式洗手器,成品输液智能分拣系统

中星众科医疗科技有限公司是一家集产品研发、生产和销售的医疗器械制造商，致力于为客户提供优质医疗产品和医院整体解决方案。公司秉承着研发创新的宗旨，通过人才引进组建了一批技术研发团队，在医用野战妇科手术床、便携式手术床、便携式病床、医用护理床、便携式洗手器、成品输液智能分拣系统及医疗设备等多个产品项目中实现技术突破.

健康医疗 2026-01-28 19:52:52

成都现代中式

成都威德森家具有限公司（成都现代中式定制工厂,成都轻奢现代高端定制工厂,成都现代简美全屋整装定制工厂）是一家集家居设计、生产和销售于一体的产品多元化、管理科学化的优秀企业，主营产品有全屋家具、整装原木、高端实木家居【定制工厂】，主营地区有成都、四川，价格实惠，欢迎来电咨询。

设计美化 2026-01-28 20:42:31

【中海防水】防水材料

河南中海防水工程有限公司是一家专注于河南防水，河南防水工程和河南SBS防水卷材生产和施工以及销售为一体的厂家。公司自从成立以来就凭借先进的生产工艺，严格的管理规范从而赢得了客户的广泛好评，如果您对河南防水和河南防水工程以及河南SBS防水卷材有需求的话欢迎来我公司参观考察！

管理咨询 2025-02-14 17:17:10

MX绘画中文站

MX绘画中文站，让绘画如此简单，只需描述图片内容AI即可快速生成精美的图片，本站提供一站式MXAI绘画图片创作服务！

图片摄影 2026-01-29 15:45:40

流行的宠物合成进化类游戏分享 2025热门的宠物合成进化类游戏有哪些 (流行的宠物合成游戏)

这一期小编给你们分享的是，关于宠物合成进化类游戏的内容，它们的特色或许你们也略有耳闻，看到的画面、玩法、特效等多方面，都展现出了属于这种主题的内容，不知道玩家们的感受是怎么样的，但是从这里面我们可以发现它的趣味性是很高的，真要想知道自己选择什么游戏的话，可以先来看看它们的特色，1、，代号，进化，首先玩家们看到的，代号，进化，这款手游，...。

2025-02-10 01:48:05

英伟达正在吹着人类史上最大的AI泡沫 (英伟达一直转圈)

不可否认，英伟达，NVIDIA，是个伟大的公司，以前松松在上大学的时候，宿舍同学就以用英伟达显卡为荣，当时英伟达的显卡比一般的都贵点，玩游戏性能也更优，但英伟达也在吹着人类历史上最大的一个泡沫，AI算力，这不，前两天英伟达又给诸位AI老板挖了个大坑，这就是英伟达的如意算盘，随着挖矿和AI的兴起，在加上老美的封锁，英伟达已经这两年已...。

2025-02-01 18:47:14

云服务增速超手游腾讯发布Q2财报支付金融 (云服务增速超过多少)

雷锋网AI金融评论消息，今日，腾讯公布截至2018年6月30日未经审核的第二季度及中期业绩，财报显示，2018年第二季度，腾讯总收入为人民币736.75亿元，比去年同期增长30%，净利润178.67亿元，同比下滑2%，在上半年业绩方面，实现营收1472.03亿元，同比增长39%；实现净利411.57亿元，同比增长26%，腾讯在财报中表...。

2024-12-09 23:52:12

出海不是救命稻草出海百人谈中国品牌出海先做好亏掉100万美金的准备 (出海获救)

2024年出海领域正在发生全面且深刻的转变，越来越多人意识到，出海只是锦上添花，不是雪中送炭，更不是救命稻草，这一轮出海潮比以往都要热闹，也更加理性，当然竞争也比以往要更加复杂，在连接中国与世界的过程中，美国市场一直是众多出海企业的必争之地，中美脱钩的大环境后，有声音认为美国作为最大的消费品市场陷入到了一种温和衰退的境地，包括美国Ti...。

2024-12-03 19:51:25

植物大战僵尸无尽形式是哪个版本 (植物大战僵尸杂交版下载)

植物大战僵尸无尽形式在多个版本中都有产生，包含PC、iOS、Android等版本，在中文版中，无尽形式被称为，无尽应战，，是游戏中的一个独立形式，而在英文版中，无尽形式是规范游戏的一局部，可以自在选用进入，无尽形式共无关卡149关，须要经过始终解锁来取得所有关卡，该形式难度较大，须要玩家充沛把握植物的个性、正当安顿阵型、把握正确的操作...。

2024-07-16 02:47:49

国际最大的汽车开售网站 (国际最大的汽车玻璃公司)

第一名，汽车之家汽车之家成立于2005年6月，是环球访问量最大的汽车网站，依据iUserTracker数据统计，汽车之家月度笼罩人数凑近8000万，中国互联网汽车用户60%的期间破费在汽车之家，汽车之家是中国最值得信任的汽车互联网服务平台——为汽车消费者提供贯通选车、买车、用车、置换一切环节的片面、准确、快捷的一站式服务，努力于以传媒...。

2024-07-07 20:39:04

长城weyvv7 (长城weyvv5价格)

vv7是WEY旗下车型，WEY指的是中国奢侈SUV品牌，成立于2016年，是中国SUV企业长城汽车汇集1600多人的国际研发团队历时四年打造出的中国奢侈SUV品牌旗下产品有VV7VV6VV5及VV7PHEV新动力系列车型WEY共同的竖型标识，太平洋汽车网WEY是长城旗下历时四年打造出的中国奢侈SUV品牌成立于2016年旗下产品有VV7...。

2024-07-07 16:06:02

凯美瑞前面有classic是哪一款 (凯美瑞前面有雷达预警吗)

2012款，依据太平洋汽车网查问显示，凯美瑞classlcal是2012款，是凯美瑞的第六代汽车，凯美瑞classlcal是丰田凯美瑞的传统款，也是丰田凯美瑞经典款，凯美瑞classical什么意思，太平洋汽车网，丰田凯美瑞classlcal代表丰田凯美瑞的传统款，也叫做丰田凯美瑞经典款，丰田凯美瑞是由广州汽车个人股份有限公司和丰田汽...。

2024-07-07 10:05:38

北京房山区有日产汽车的4S店吗谢谢或是有日产车发售的大型汽车市场在哪 (北京房山区有几个镇)

房山应该是没有日产的4s店，以下是北京其余地域4s店，西风日产三合专营店崇文分店，直营二级网点，北京市崇文区东后河沿1号院1号楼开售热线，010，服务热线，800，988，1181传真，010，森华佳运专营店，背阴区，宏远信诚专营店，背阴区，福源专营店，背阴区，首汽专营店，背阴区，华盛昌百旺专营店，海淀区，华盛昌专营店，海淀区，中汽...。

2024-07-07 07:48:03

阴阳师萌新玩家成长攻略

很多阴阳师的攻略都在讲，新手阴阳师的各项注意事项，但实际上新手对于这个游戏并没有一个整体的理解。阴阳师游戏的核心是式神，我们要用不同的式神配合去达到特殊的阵容效果，以赢得对战或者副本当中的胜利。游戏内分为阴阳师（晴明、神乐、源博雅、八

2023-11-17 07:37:21

metashape破解版-AgisoftmetashapePro(三维建模软件)v2.1.0中文免费版

AgisoftmetashapePro是一款基于影像自动生成高质量三维模型的优秀软件，能够将平面影像进行重建，建立3D模型，这对于3d建模需求来说实在是一把利器。

2023-11-04 03:34:11

一线城市正式开启大规模救市！|房价|买房|首付|广州|商品房买卖合同

一线城市正式开启大规模救市！,房价,买房,首付,救市,广州,一线城市,商品房买卖合同

2023-09-02 16:47:02

文章推荐

卢伟冰接任集团总裁王翔退休小米人事调整落地 (卢伟冰高管)

消息，小米合伙人、总裁王翔于12月30日正式退休，小米12月22日晚为其举办了欢送Party，原高级副总裁卢伟冰将继任成为新一任小米集团总裁，小米集团内部邮件中提到，卢伟冰一步一个脚印，赢得了集团上下的认可和尊敬，此外，高级副总裁王川、洪锋不再负责具体事务，今后他们会以联合创始人的身份在合伙人委员会继续支持和推动公司的战略发展...。

2024-12-09 20:28:46

资讯动态

Mac之鉴 PC厂商切忌妄自菲薄 (mac 鉴定)

文，孙永杰PC产业的低迷，甚至下滑已是不争的事实，究其原因，除了业内分析的市场本身需求疲软及受到智能手机和平板电脑的冲击外，是否还有别的原因，不过近期接连曝出的与PC产业和PC厂商相关的消息不得不让我们深入思考PC产业低迷的另类原因，众所周知，从目前PC产业的市场格局看，联想已经成为支撑整个PC产业发展的主要，甚至可以说是惟一的厂商，...。

2024-12-09 20:19:52

资讯动态

加盟成人用品店哪家好 (加盟成人用品被公司坑了怎么处理)

近些年来，人们的生活质量越来越好，很多夫妻之间为了追求更好的性生活体验，会使用一些情趣用品，用于增加夫妻之间的情趣，从而大大提高性生活的质量，随着人们对情趣用品的需求较大，使得很多成人用品店数量逐渐增加，成人用品店有较好的发展前景，有很多创业者看好成人用品店的发展，会选择成人用品店作为创业项目，想要了解加盟成人用品店哪家好，下面小编为...。

2024-12-02 20:54:27

创业加盟

从光路散热及DMD组件了解内部结构极米h2拆机

发表在极米投影仪2020，6，2414，01又到了拆机环节，这次要给大家展示的是极米h2的光路散热及DMD组件，从而看到内部结构，目的是为了让更多的投影小伙伴了解自己正在使用的机器，以便后续机子出故障，自己心中也能有个谱，一、拆卸极米H2的外壳使用螺丝刀将机器周边一圈的螺丝拧下，在此过程中不断的用手轻掰外壳与主体的衔接处，不扯坏线，，...。

2024-11-28 14:57:18

网络百科

标杆型的4K高亮激光投影仪 Pro投影仪评测当贝X5S (标杆类型)

发表在当贝投影仪2024，6，1810，07在激光投影领域，当贝X系列产品早已占据过半市场份额，稳居市占有率前列，可以说目前每卖出两台激光投影，就有一台是当贝投影，近日更是发布新品激光投影当贝X5SPro，具体当贝X5SPro作为一款4K高亮激光投影仪的表现如何呢，下面就通过各方面的实测体验来了解当贝X5SPro，看看实测体验怎么样，...。

2024-11-28 13:01:02

网络百科

DALL (dall-e)

第二步 - 从视觉语义生成图像

第三步 - 从文本语义到相应的视觉语义的映射

相关文章

文章推荐