OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生仿佛拥有人类的语言想象力 (openai股票)

文章编号：44457 资讯动态 2024-12-09 OpenAI

2021刚刚开启，OpenAI又来放大招了！

能写小说、哲学语录的gpt-3已经不足为奇？那就来一个多模态『图像版GPT-3』。

今天，OpenAI重磅推出了最新语言模型—，它是GPT-3的120亿参数版本，可以魔法一般按照自然语言文字描述直接生成对应图片！

比如，在DALL·E模型中输入“穿芭蕾舞短裙、正在遛狗的萝卜宝宝”，它就可以生成这样一张图片：

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

输入“鳄梨形状的扶手椅”，就是这样：

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

甚至输入“含OpenAI字样的店铺”，它也能成生成多种设计图

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

DALL·E这项神技能冲上了各大社交平台的热搜。

Keras创始人François Chollet特意发文称：

AI大神吴恩达也第一时间转推点赞，还顺带挑选了一张满意的蓝色衬衫 + 黑色长裤的AI 生成图。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

OpenAI 联合创始人、首席科学家 Ilya Sutskever 在推特上发文表道：人工智能的长期目标是构建多模态神经网络，即AI能够学习不同模态之间的概念（文本和视觉领域为主），从而更好地理解世界。而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

接下来，我们来详细介绍一下它还有哪些硬核能力。

DALL·E的能力

DALL·E能够为多语言成分结构的各种句子创造似是而非的图像。研究人员通过一些交互视觉效果举例说明了这一点。在下面的案例中，每个视觉效果的文本提示都是通过CLIP重新排序后，从512个文本提示中的前32个获得的，不采取任何手动选取（cherry-picking）。

控制属性

研究人员测试了DALL·E修改目标物体的能力，包括修改相应的属性以及出现的次数。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

绘制多个目标

同时控制多个目标物体、以及它们的属性、空间关系是一个全新的挑战。

例如，“一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬”。要正确地解释这句话，DALL·E不仅要正确地将每件衣服与动物组合在一起，还要将（帽子、红色）、（手套、黄色）、（衬衫、蓝色）和（裤子，绿色）形成各种联想，而且不能混淆它们。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

虽然DALL·E确实为少量目标的属性和位置提供了某种程度的可控性，但成功率取决于标题文本的语言措辞。

随着目标的增多，DALL·E容易混淆目标与颜色之间的关联，成功率会急剧降低。研究人员注意到，在这些场景中，DALL·E对于标题文本的重新表述是脆弱的、可替代的，语义上等价的标题文本通常不会产生正确的解释。

可视化透视与三维

研究人员发现DALL·E还能够控制场景的视点和渲染场景的3D样式。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

为了进一步验证DALL·E的这个能力，研究人员测试了DALL·E在同等视角下重复绘制知名人物头部的能力，并发现DALL·E可以成功恢复旋转头部的平滑动画。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

DALL·E能够将某些类型的光学畸变（Optical Distortions）应用到具体场景中，正如我们在“鱼眼透镜视图（Fisheye Lens View）”和“球形全景图（Spherical Panorama.）”等场景中看到的那样。它促使研究人员探索其产生光学反射的能力。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

可视化内部和外部结构

“特写镜头（Extreme Close-up View）”和“x射线（X-Ray）”风格的案例使研究人员进一步探索了DALL·E运用横截面视角绘制内部结构和用宏观图像绘制外部结构的能力。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

推断上下文细节

将文本翻译成图像的任务是不明确的：一个标题文本通常可以对应无限多种图像，换句话说，图像不是唯一确定的。例如，假如标题文本是“日出时，坐在田野上的水豚的绘画像。根据水豚的方位，可能需要画一个阴影，但这个细节没有被明确提及。

研究人员探讨了DALL·E在以下三种情况下解决无规范标准问题的能力：改变风格、设置和时间；在各种不同的情况下绘制同一目标图像；在生成目标图像上书写指定文本。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

利用不同程度的可靠性，DALL·E为通过自然语言实现3D渲染引擎功能提供了一种途径。它可以独立地控制少量目标的属性，并在有限的范围内控制目标的数量以及它们之间的排列方式。它还可以控制渲染场景的位置和角度，并且根据角度和照明条件生成精确且规范的已知目标。

与3D渲染引擎不同，3D渲染引擎的输入必须明确且完整，当标题文本暗示图像必须包含未明确的特定细节时，DALL·E通常能够“填补空白”。

应用案例

研究人员探讨了上述功能在时尚设计和室内设计中的应用。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

组合不相关的概念

语言的构成本质使人们能够将概念描述集成在一起，用以描述真实和虚构的事物。 OpenAI发现，DALL·E还具有将完全不同的idea结合起来以合成物体的能力，其中有些物体不可能在现实世界中存在。

OpenA在两种情况下探索这种能力：将各种概念的特质传递给动物，以及从不相关的概念中汲取灵感来设计产品。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

在上一部分中探讨了DALL·E在生成真实物体的图像时结合无关概念的能力。接下来，OpenAI通过在艺术的背景下的三种插图探索这种能力：动物和物体的拟人化版本、动物嵌合体、表情符号。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

零样本视觉推理

可以仅根据说明和提示来指示GPT-3执行多种任务，而无需任何额外训练。例如，当提示短语“将‘在公园里walking狗的人’被翻译成法语：”时，GPT-3会回答“un homme quipromèneson chien dans le parc。此功能称为零样本推理。

OpenAI发现DALL·E将此功能扩展到了视觉领域，并且在以正确的方式提示时，能够执行多种图像到图像的翻译任务。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

OpenAI惊讶地发现DALL·E居然有这种神奇的能力，因为他们没有对神经网络或训练程序进行任何修改。

受这些结果的启发，OpenAI通过在Raven的渐进矩阵上进行测试来衡量DALL·E对于解决类推推理问题的能力，这是一种视觉智商测试，在20世纪得到了广泛应用。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

地理知识

OpenAI 发现DALL·E了解地理事实、地标和街区。它对这些概念的了解在某些方面出奇地精确，而在另一些方面却有缺陷。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

时间知识

除了探索DALL·E关于随空间变化的概念的知识外，OpenAI还探索了其随时间变化的概念的知识。

祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力

总结：方法和先前工作

DALL·E是一个仅有解码器的Transformer架构，它可以接收1280个token的文本和图像作为单个流（文本为256个token，图像为1024个token），并对它们全部进行自动回归建模。

它的64个自注意力层中的每一个都具有注意力mask，使每个图像token都可以匹配所有文本token。DALL·E对文本token使用标准的因果mask，以行、列或卷积注意模式对图像token使用稀疏注意，具体取决于层数。

与VQVAE-2中使用的rejection sampling类似，OpenAI使用CLIP对每个文本生成的512个采样中的前32个进行排名。此过程也可以看作是一种语言指导的搜索，会对样本质量产生巨大影响。

GPT-3已经向我们展示，可以用语言来指示大型神经网络执行各种文本生成任务。Image GPT则表明，同样类型的神经网络也可以用来生成高保真的图像。OpenAI进一步扩展了这些发现，以表明通过语言操纵视觉概念是触手可及的。

与GPT-3一样，DALL·E是一种Transformer语言模型。OpenAI认为，涉及生成模型的工作可能会产生重大而广泛的社会影响。因此未来，OpenAI会计划分析像DALL·E这样的模型如何与社会问题联系起来，例如对某些工作流程和专业的经济影响，模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。

最后，Henry AI Labs在YouTube上分享了一个视频，简要介绍了OpenAI的DALL-E模型，并表示“希望可以清楚说明深度神经网络中文本和图像是如何作为张量统一的。”

由于是非官方解释，仅供参考。

最后，大家对DALL·E 这个的神经网络模型有什么应用上的期待呢？二维设计师？

又会觉得它会引导什么AI革命吗？又或者觉得它会存在很多不可避免的限制？

参考链接：

原创文章，未经授权禁止转载。详情见转载须知。

本文地址： https://www.gpxz.com/article/7c79f3dbbd62fbc21f28.html

上一篇：应该付钱给我吗FacebookFacebook我在上发了

下一篇：线下视频监控用户数据如何守护Facebook千万

合肥母线槽

合肥亿安电力设备有限公司实行现代化企业管理，长期致力于母线槽研发、生产与销售，是专业母线槽的专业生产厂家，我司采用国际专业的母线槽制造工艺流程，拥有目前国内专业水平一次成形生产线，全自动喷涂流水线。公司在全国许多大中城市建立了销售网点。健全的销售网络，专业的服务将给你带来方便和实惠。自公司创建以来，生产的母线槽行销于全国各地，并在业内赢得了很高的知名度和美誉度。

网络应用 2026-01-25 21:21:28

【同益租车18647157227】呼和浩特租车

同益租车成立于2005年,主营业务包括:呼和浩特商务车租赁,呼和浩特汽车租赁,呼和浩特租车,呼和浩特婚庆租车,呼市二手汽车置换等,联系电话:0471-5972244.高中低档的车型可以满足不同的消费层次.欢迎您的咨询，呼和浩特租车|呼和浩特汽车租赁|呼和浩特商务车租赁｜呼市租车

管理咨询 2026-01-28 22:29:46

万石建筑装饰有限公司

万石建筑装饰有限公司是一家专业化、全产业链、跨地域的幕墙、装饰及设计于一体的服务商。业务范围涵盖全国华北、华东、华中、华南、西南、西北、东北等多个地区，我们拥有专业的设计与施工团队、完整的产业链、丰富的施工工程及设计经验，并一直致力于打造创新、优质的幕墙、装饰、智能化等工程，提供专业化的工程管理与服务平台。联系方式：0592-7616333

设计美化 2026-01-29 13:03:14

花小米

花小米-2024最新网络贷款口子信息平台,网贷还不上怎么办？逾期严重上岸操作技巧,芝麻分涨分技巧,信用卡办理提额,上岸交流,无需查征信大数据也可以申请贷款,不看大数据的口子,不查征信的口子,一站式学会如何做好征信维护,如何解决借款过程中的问题，尽在花小米！

网络应用 2026-01-29 13:06:53

杯中人传媒

码上卖，是移动互联网时代快消品智能促销解决方案，用二维码链接消费者和厂家，用了码上卖，产品马上卖！

互联资讯 2026-01-29 17:07:00

中科爱伽(天津)医用食品有限公司

电影视频 2025-02-02 18:00:27

逸名网：在线起名

星座灵异 2025-02-03 19:42:39

上海网站优化

上海银象网络科技有限公司专注于网站seo优化的专业网站优化公司,我们提供上海网站优化,百度关键词排名,网站优化技术咨询,通过seo技巧和网站优化策略提供SEO优化最优解决方案,网站优化服务电话：400-181-2008

网络应用 2025-02-06 17:41:20

[荔康科技]智慧食堂系统

荔康科技自研智慧食堂系统,智能一体机,健康一体机,智慧餐厅系统等智能产品,广泛应用于医院,医药行业,养老行业,社区,企业单位等机构,荣获各类奖项,成为行业的领先的健康智能产品,智慧化解决方案和服务提供商,欢迎咨询

网络应用 2026-01-25 00:26:09

深圳市小火龙物流科技有限公司

物流快递 2026-02-03 15:14:36

33VISION

当我的孩子出生时，因为他，我有了人生中第一部单反相机。记录家庭日常生活的点滴成为我那时候最快乐的事。 2013年，朋友们对我的认可促使我开始为他们记录婚礼。人们那些稍纵即逝的情感细节深深地打动了我。14年初我的摄影工作室正式成立。人生的每一刻皆无法复制。摄影是我的第二语言，为您留住生活中无法复制的精彩瞬间，留住时光的印记，是我的心意。

图片摄影 2026-02-03 15:47:44

本末科技

本末科技致力于使用直驱技术，去除任何机器中的减速器，拥有机器人关节方面从传感器、驱动器到电机本体的全套设计生产技术，同时独特的直驱方案也为众多行业提供了与传统减速器方案差异化的产品选择。

设计美化 2026-02-04 21:17:32

当贝投影年度重磅新品曝光！当贝大招要来了！ (当贝投影)

春秋季两个时间段向来是科技电子领域新品高发期，今年更是热闹非凡，4月10日，当贝投影官方微博发布了概念海报，曝光2023年两款新品投影仪将于4月14号的，热爱·精进，2023当贝春季新品发布会同时亮相，热爱·精进2023当贝春季新品发布会根据海报和官微信息，两款产品背后的藏有六边形图样背景，但指代信息未完全透露，有部分指向，性能配置，...。

2025-02-02 19:30:54

加盟费用高吗龙胜管业品质怎么样 (加盟费用高吗知乎)

健康饮用水管对于现在装修行业来说有着很大的需求，水管工程属于隐蔽工程，对于水管的质量，品牌的认可度都很高，龙胜管业品牌创办时间就很长，在市场经营已经有20多年时间，龙胜管业品质怎么样，加盟费用高吗，龙胜管业经过很多年的努力以后，能够在给水管、采暖管、开关插座、灯具照明、集成吊顶、换气扇等一些领域做的更出色，把水电建材产品做好生产和批发...。

2024-12-21 23:19:48

中国平安上半年新业务价值同比大增45%中期分红每股提升至0.93元 (中国平安上半年)

香港、上海，2023年8月29日，中国平安保险，集团，股份有限公司，以下简称，中国平安，、，平安，、，集团，或，公司，，股份代码，香港联合交易所02318，上海证券交易所601318，今日公布截至2023年6月30日止中期业绩，2023年上半年，外部环境依旧复杂严峻，国内经济运行总体平稳，市场信心仍需持续提振，面对内外部环境的复杂性和...。

2024-12-09 17:54:34

杀害茆盛泉孙某司机会判刑多少年 (茆盛泉案)

杀害茆盛泉孙某司机会判刑十年以上有期徒刑，无期徒刑或者是死刑，本案当中警方对肇事的驾驶员是以故意伤害刑拘的，结合路口交警的前因后果来看，从主观故意来说，应该还是个故意伤害，如果是故意伤害，按照本案的结果是致人死亡了，判决规定是十年以上有期徒刑，无期徒刑或者是死刑，年仅32岁的闵行交警茆盛泉因阻止交通违法行为被拒，遭涉事宝马车拖行近10...。

2024-11-29 13:32:54

珠海市驾车冲撞行人案件伤者正在全力救治 (珠海市驾车冲上行人道事故调查)

2024年11月11日19时48分许，珠海市体育核心出现一同立功嫌疑人驾车冲撞锻炼市民的严重恶性案件，截至目前，35人经抢救有效死亡、43人受伤仍在院治疗，暂无生命风险，事情出现后，广东省和珠海市迅速调派数百名接济人员对事情现场伤员展开紧急救治，省内先后调度8组共30多名专家赶赴珠海市指点救治，国度卫生肥壮委也立刻派出医疗应急上班无...。

2024-11-13 01:18:32

火狐Firefox阅读器官网版下载地址火狐阅读器官网版下载装置2023 (火狐firefox浏览器官网)

介绍这款网络高速阅读器是一款集高效、稳固于一身的现代化网络阅读工具，应用先进的渲染引擎和提升算法，网络高速阅读器确保了出色的页面加载速度和流利的多媒体体验，具有全方位的安保防护特性，能有效进攻各类网络要挟，同时允许HTML5和CSS3，确保了与最新网络技术规范的完美兼容，欲了解更多或立刻下载，请访问系统引见下载地址经常出现疑问火狐阅读...。

2024-07-16 05:53:02

gg修正器怎样用 (gg修改器改善什么意思)

经常使用前，请确保手机曾经ROOT，假设没有启动ROOT，请自觉分开，或许经常使用虚构机启动操作，普通虚构机都自带Root，假设没有可以自己关上，ROOT后，请在网络上自行下载GG修正器，GG修正器在运转的时刻假设揭示咱们守护进程失败的话和咱们手机自身有没有root无关，你的手机须要先root并且root之后须要给它root权限，上...。

2024-07-16 05:14:36

BT天堂电影种子疑问

720P、1080P均为视频格局，数字越大，容量越大，越明晰，bt天堂官方哪个是真的官方，网页链接收费下载bt种子的网站有哪些关于收费迅雷下载电影的网站，介绍经常使用正轨、大型且口碑良好的视频分享平台，例如，电影天堂、80S电影网、BT天堂等，但请留意，在下载任何内容时，务必确保遵守外地的版权法规则，在互联网时代，电影资源的失掉变得相...。

2024-07-13 19:34:44

侠盗猎车手圣安地列斯怎样做义务 (侠盗猎车手圣安地列斯秘籍大全)

LosSantos篇终于回到阔别5年的故乡，CarlJohnson，以下简称CJ，刚出机场便被流氓警察Tenpenny搜掠，并将他扔在一条小巷里，在不远处有一辆山地车，BMX，，骑上佰它朝家里行去，地图上的CJ标识，，在路上稍微练习一下车技，回到家中拿起照片，想起母亲的音容笑貌，选择往母亲墓地看看，这时一人拿着球棒冲了出去，原来是当年...。

2024-07-13 19:07:31

百度，百度如何，什么百度，哪些百度，怎么百度

2023-11-03 17:21:24

小番茄任务栏透明64位1.0.2.8-小番茄任务栏透明官方最新版下载

小番茄任务栏透明是一款功能强大的任务栏透明和美化小工具，软件提供透明度调节、美化选项等功能，提升桌面美观度，同时提高使用效率，操作简单易用，支持实时预览，轻量级运行，让桌面更加个性化、舒适，提供更好的

2023-10-25 16:44:30

360云盘mac同步版-360云盘mac版下载V2.0.0官方版

360云盘mac同步版为广大网民提供了存储容量大、免费、安全、便携、稳定的跨平台文件存储、备份、传递和共享服务。360云盘为每个用户提供36G的免费初始容量空间，360云盘最高上限是没有限制的;您可以免费下载。

2023-08-11 16:19:38

文章推荐

人气较高的团战手游下载合集受欢迎的团战游戏推荐2025 (人气较高的团组织)

可以打团战的手游都有着多人联机的玩法以及快速匹配机制，多人合作打团战的战斗过程足以让大家热血沸腾，那么人气较高的团战手游下载合集情况怎么样，本期文章讲解的五个多人团战类型游戏刺激性都是很强的，想跟队友合作一起打团战的小伙伴可以试试这些团战手游，1、，王者荣耀，如果你想跟好友一起在MOBA游戏中参与刺激的团战，那么下载王者荣耀这款国民级...。

2025-02-11 19:47:23

资讯动态

紫光展锐20岁绝地重生组建唐古拉5G战队 (紫光展锐2025上市)

2001年展讯通信和锐迪科合并而成的紫光展锐正式成立，发展了17年，在其专注的移动通信领域依旧处于落后的状态，甚至有被，夷为平地，的风险，2018年12月14日，在通信、半导体和投资领域从业20年的楚庆成为紫光展锐新任CEO，上任的第二天，楚庆就做了两个重要决定，一个是必须独立开发5G技术，另一个是成立新的工业电子事业部，由此，17岁...。

2024-12-01 00:49:59

资讯动态

奔赴下一个征程保持热爱 (奔赴下一个征程的句子)

8月19日，以，热爱·Devotion，为主题的绿盟科技TechWorld2022技术嘉年华在北京成功举办，这是TechWorld技术嘉年华的第十年，当前世界百年变局和世纪疫情交织叠加，新一轮科技革命和产业变革深入推进，推动数字化转型日益成为顺应世界之变、时代之变、发展之变的重要任务，守好网络安全，大门，，数字经济发展才有更多可能性，...。

2024-11-30 22:29:27

资讯动态

世界杯巨幕！极米皓·LUNE激光电视体验视频 (世界杯场面)

2018年的夏天，是属于足球的，而看球，就肯定少不大电视，而且到这一届世界杯，终于有正常人能买得起的大屏产品了，现在主流液晶电视最大75寸，价格6000到2万多的都有，再往上，如果要百寸巨幕看世界杯，就只有激光电视可选了，而我们这次视频体验的激光电视极米皓·LUNE，它能炸起了一堆激光电视圈爱好者的主因，是它搭载的0.65英寸DMD显...。

2024-11-30 14:34:32

手机评测

爱普生5700TX和优派Q20哪款好全方位对比两者有什么区别 (爱普生5700tx参数)

发表在爱普生投影仪2022，6，914，11爱普生5700TX和优派Q20都是近期上市的新品投影仪，价格也较为接近，那么两款投影仪在性能配置方面有什么不同呢，下面就通过参数和实测效果对比两款投影仪有什么区别，看看爱普生5700TX和优派Q20究竟哪款好，爱普生5700TX和优派Q20有什么区别1.光学参数对比在画面亮度方面，爱普生57...。

2024-11-29 02:10:26

网络百科

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生 仿佛拥有人类的语言想象力 (openai股票)

DALL·E的能力

总结：方法和先前工作

相关文章

文章推荐

OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生仿佛拥有人类的语言想象力 (openai股票)