OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生 仿佛拥有人类的语言想象力 (openai股票)

文章编号:44457 资讯动态 2024-12-09 OpenAI

2021刚刚开启,OpenAI又来放大招了!

能写小说、哲学语录的gpt-3已经不足为奇?那就来一个多模态『图像版GPT-3』。

今天,OpenAI重磅推出了最新语言模型—,它是GPT-3的120亿参数版本,可以魔法一般按照自然语言文字描述直接生成对应图片!

比如,在DALL·E模型中输入“穿芭蕾舞短裙、正在遛狗的萝卜宝宝”,它就可以生成这样一张图片:

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

输入“鳄梨形状的扶手椅”,就是这样:

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

甚至输入“含OpenAI字样的店铺”,它也能成生成多种设计图

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

DALL·E这项神技能冲上了各大社交平台的热搜。

Keras创始人François Chollet特意发文称:

AI大神吴恩达也第一时间转推点赞,还顺带挑选了一张满意的蓝色衬衫 + 黑色长裤的AI 生成图。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

OpenAI 联合创始人、首席科学家 Ilya Sutskever 在推特上发文表道:人工智能的长期目标是构建多模态神经网络,即AI能够学习不同模态之间的概念(文本和视觉领域为主),从而更好地理解世界。而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

接下来,我们来详细介绍一下它还有哪些硬核能力。

DALL·E的能力

DALL·E能够为多语言成分结构的各种句子创造似是而非的图像。研究人员通过一些交互视觉效果举例说明了这一点。在下面的案例中,每个视觉效果的文本提示都是通过CLIP重新排序后,从512个文本提示中的前32个获得的,不采取任何手动选取(cherry-picking)。

控制属性

研究人员测试了DALL·E修改目标物体的能力,包括修改相应的属性以及出现的次数。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

绘制多个目标

同时控制多个目标物体、以及它们的属性、空间关系是一个全新的挑战。

例如,“一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬”。要正确地解释这句话,DALL·E不仅要正确地将每件衣服与动物组合在一起,还要将(帽子、红色)、(手套、黄色)、(衬衫、蓝色)和(裤子,绿色)形成各种联想,而且不能混淆它们。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

虽然DALL·E确实为少量目标的属性和位置提供了某种程度的可控性,但成功率取决于标题文本的语言措辞。

随着目标的增多,DALL·E容易混淆目标与颜色之间的关联,成功率会急剧降低。研究人员注意到,在这些场景中,DALL·E对于标题文本的重新表述是脆弱的、可替代的,语义上等价的标题文本通常不会产生正确的解释。

可视化透视与三维

研究人员发现DALL·E还能够控制场景的视点和渲染场景的3D样式。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

为了进一步验证DALL·E的这个能力,研究人员测试了DALL·E在同等视角下重复绘制知名人物头部的能力,并发现DALL·E可以成功恢复旋转头部的平滑动画。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

DALL·E能够将某些类型的光学畸变(Optical Distortions)应用到具体场景中,正如我们在“鱼眼透镜视图(Fisheye Lens View)”和“球形全景图(Spherical Panorama.)”等场景中看到的那样。它促使研究人员探索其产生光学反射的能力。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

可视化内部和外部结构

“特写镜头(Extreme Close-up View)”和“x射线(X-Ray)”风格的案例使研究人员进一步探索了DALL·E运用横截面视角绘制内部结构和用宏观图像绘制外部结构的能力。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

推断上下文细节

将文本翻译成图像的任务是不明确的:一个标题文本通常可以对应无限多种图像,换句话说,图像不是唯一确定的。例如,假如标题文本是“日出时,坐在田野上的水豚的绘画像。根据水豚的方位,可能需要画一个阴影,但这个细节没有被明确提及。

研究人员探讨了DALL·E在以下三种情况下解决无规范标准问题的能力:改变风格、设置和时间;在各种不同的情况下绘制同一目标图像;在生成目标图像上书写指定文本。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

利用不同程度的可靠性,DALL·E为通过自然语言实现3D渲染引擎功能提供了一种途径。它可以独立地控制少量目标的属性,并在有限的范围内控制目标的数量以及它们之间的排列方式。它还可以控制渲染场景的位置和角度,并且根据角度和照明条件生成精确且规范的已知目标。

与3D渲染引擎不同,3D渲染引擎的输入必须明确且完整,当标题文本暗示图像必须包含未明确的特定细节时,DALL·E通常能够“填补空白”。

应用案例

研究人员探讨了上述功能在时尚设计和室内设计中的应用。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

组合不相关的概念

语言的构成本质使人们能够将概念描述集成在一起,用以描述真实和虚构的事物。 OpenAI发现,DALL·E还具有将完全不同的idea结合起来以合成物体的能力,其中有些物体不可能在现实世界中存在。

OpenA在两种情况下探索这种能力:将各种概念的特质传递给动物,以及从不相关的概念中汲取灵感来设计产品。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

在上一部分中探讨了DALL·E在生成真实物体的图像时结合无关概念的能力。 接下来,OpenAI通过在艺术的背景下的三种插图探索这种能力:动物和物体的拟人化版本、动物嵌合体、表情符号。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

零样本视觉推理

可以仅根据说明和提示来指示GPT-3执行多种任务,而无需任何额外训练。例如,当提示短语“将‘在公园里walking狗的人’被翻译成法语:”时,GPT-3会回答“un homme quipromèneson chien dans le parc。此功能称为零样本推理。

OpenAI发现DALL·E将此功能扩展到了视觉领域,并且在以正确的方式提示时,能够执行多种图像到图像的翻译任务。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

OpenAI惊讶地发现DALL·E居然有这种神奇的能力,因为他们没有对神经网络或训练程序进行任何修改。

受这些结果的启发,OpenAI通过在Raven的渐进矩阵上进行测试来衡量DALL·E对于解决类推推理问题的能力,这是一种视觉智商测试,在20世纪得到了广泛应用。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

地理知识

OpenAI 发现DALL·E了解地理事实、地标和街区。 它对这些概念的了解在某些方面出奇地精确,而在另一些方面却有缺陷。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

时间知识

除了探索DALL·E关于随空间变化的概念的知识外,OpenAI还探索了其随时间变化的概念的知识。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

总结:方法和先前工作

DALL·E是一个仅有解码器的Transformer架构,它可以接收1280个token的文本和图像作为单个流(文本为256个token,图像为1024个token),并对它们全部进行自动回归建模。

它的64个自注意力层中的每一个都具有注意力mask,使每个图像token都可以匹配所有文本token。DALL·E对文本token使用标准的因果mask,以行、列或卷积注意模式对图像token使用稀疏注意,具体取决于层数。

与VQVAE-2中使用的rejection sampling类似,OpenAI使用CLIP对每个文本生成的512个采样中的前32个进行排名。此过程也可以看作是一种语言指导的搜索,会对样本质量产生巨大影响。

GPT-3已经向我们展示,可以用语言来指示大型神经网络执行各种文本生成任务。Image GPT则表明,同样类型的神经网络也可以用来生成高保真的图像。OpenAI进一步扩展了这些发现,以表明通过语言操纵视觉概念是触手可及的。

与GPT-3一样,DALL·E是一种Transformer语言模型。OpenAI认为,涉及生成模型的工作可能会产生重大而广泛的社会影响。因此未来,OpenAI会计划分析像DALL·E这样的模型如何与社会问题联系起来,例如对某些工作流程和专业的经济影响,模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。

最后,Henry AI Labs在YouTube上分享了一个视频,简要介绍了OpenAI的DALL-E模型,并表示“希望可以清楚说明深度神经网络中文本和图像是如何作为张量统一的。”

由于是非官方解释,仅供参考。

最后,大家对DALL·E 这个的神经网络模型有什么应用上的期待呢?二维设计师?

又会觉得它会引导什么AI革命吗?又或者觉得它会存在很多不可避免的限制?

参考链接:

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/7c79f3dbbd62fbc21f28.html
全局中部横幅
全局中部横幅
合肥母线槽

合肥亿安电力设备有限公司实行现代化企业管理,长期致力于母线槽研发、生产与销售,是专业母线槽的专业生产厂家,我司采用国际专业的母线槽制造工艺流程,拥有目前国内专业水平一次成形生产线,全自动喷涂流水线。公司在全国许多大中城市建立了销售网点。健全的销售网络,专业的服务将给你带来方便和实惠。自公司创建以来,生产的母线槽行销于全国各地,并在业内赢得了很高的知名度和美誉度。

【同益租车18647157227】呼和浩特租车​

同益租车成立于2005年,主营业务包括:呼和浩特商务车租赁,呼和浩特汽车租赁,呼和浩特租车,呼和浩特婚庆租车,呼市二手汽车置换等,联系电话:0471-5972244.高中低档的车型可以满足不同的消费层次.欢迎您的咨询,呼和浩特租车​|呼和浩特汽车租赁|呼和浩特商务车租赁|呼市租车

万石建筑装饰有限公司

万石建筑装饰有限公司是一家专业化、全产业链、跨地域的幕墙、装饰及设计于一体的服务商。业务范围涵盖全国华北、华东、华中、华南、西南、西北、东北等多个地区,我们拥有专业的设计与施工团队、完整的产业链、丰富的施工工程及设计经验,并一直致力于打造创新、优质的幕墙、装饰、智能化等工程,提供专业化的工程管理与服务平台。联系方式:0592-7616333

花小米

花小米-2024最新网络贷款口子信息平台,网贷还不上怎么办?逾期严重上岸操作技巧,芝麻分涨分技巧,信用卡办理提额,上岸交流,无需查征信大数据也可以申请贷款,不看大数据的口子,不查征信的口子,一站式学会如何做好征信维护,如何解决借款过程中的问题,尽在花小米!

杯中人传媒

码上卖,是移动互联网时代快消品智能促销解决方案,用二维码链接消费者和厂家,用了码上卖,产品马上卖!

逸名网:在线起名

免费起名|免费取名|起名|取名|英文名|测名|起名网|取名网|公司起名|免费在线测名|公司测名|公司名称测试|姓名大全|查粤语|在线粤语|人名大全|婴儿起名|个人测名|公司测名|在线查字|成语字典|阴阳历|八字|真太阳时|经纬度|姓氏|生日|星座|粤语发音|名字测试分数|小儿起名|在线图章|制作图章

上海网站优化

上海银象网络科技有限公司专注于网站seo优化的专业网站优化公司,我们提供上海网站优化,百度关键词排名,网站优化技术咨询,通过seo技巧和网站优化策略提供SEO优化最优解决方案,网站优化服务电话:400-181-2008

[荔康科技]智慧食堂系统

荔康科技自研智慧食堂系统,智能一体机,健康一体机,智慧餐厅系统等智能产品,广泛应用于医院,医药行业,养老行业,社区,企业单位等机构,荣获各类奖项,成为行业的领先的健康智能产品,智慧化解决方案和服务提供商,欢迎咨询

33VISION

当我的孩子出生时,因为他,我有了人生中第一部单反相机。记录家庭日常生活的点滴成为我那时候最快乐的事。 2013年,朋友们对我的认可促使我开始为他们记录婚礼。人们那些稍纵即逝的情感细节深深地打动了我。14年初我的摄影工作室正式成立。 人生的每一刻皆无法复制。 摄影是我的第二语言,为您留住生活中无法复制的精彩瞬间,留住时光的印记,是我的心意。

本末科技

本末科技致力于使用直驱技术,去除任何机器中的减速器,拥有机器人关节方面从传感器、驱动器到电机本体的全套设计生产技术,同时独特的直驱方案也为众多行业提供了与传统减速器方案差异化的产品选择。

全局底部横幅