OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生 仿佛拥有人类的语言想象力 (openai股票)

文章编号:44457 资讯动态 2024-12-09 OpenAI

2021刚刚开启,OpenAI又来放大招了!

能写小说、哲学语录的GPT-3已经不足为奇?那就来一个多模态『图像版GPT-3』。

今天,OpenAI重磅推出了最新语言模型—,它是GPT-3的120亿参数版本,可以魔法一般按照自然语言文字描述直接生成对应图片!

比如,在DALL·E模型中输入“穿芭蕾舞短裙、正在遛狗的萝卜宝宝”,它就可以生成这样一张图片:

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

输入“鳄梨形状的扶手椅”,就是这样:

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

甚至输入“含OpenAI字样的店铺”,它也能成生成多种设计图

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

DALL·E这项神技能冲上了各大社交平台的热搜。

Keras创始人François Chollet特意发文称:

AI大神吴恩达也第一时间转推点赞,还顺带挑选了一张满意的蓝色衬衫 + 黑色长裤的AI 生成图。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

OpenAI 联合创始人、首席科学家 Ilya Sutskever 在推特上发文表道:人工智能的长期目标是构建多模态神经网络,即AI能够学习不同模态之间的概念(文本和视觉领域为主),从而更好地理解世界。而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

接下来,我们来详细介绍一下它还有哪些硬核能力。

DALL·E的能力

DALL·E能够为多语言成分结构的各种句子创造似是而非的图像。研究人员通过一些交互视觉效果举例说明了这一点。在下面的案例中,每个视觉效果的文本提示都是通过CLIP重新排序后,从512个文本提示中的前32个获得的,不采取任何手动选取(cherry-picking)。

控制属性

研究人员测试了DALL·E修改目标物体的能力,包括修改相应的属性以及出现的次数。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

绘制多个目标

同时控制多个目标物体、以及它们的属性、空间关系是一个全新的挑战。

例如,“一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬”。要正确地解释这句话,DALL·E不仅要正确地将每件衣服与动物组合在一起,还要将(帽子、红色)、(手套、黄色)、(衬衫、蓝色)和(裤子,绿色)形成各种联想,而且不能混淆它们。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

虽然DALL·E确实为少量目标的属性和位置提供了某种程度的可控性,但成功率取决于标题文本的语言措辞。

随着目标的增多,DALL·E容易混淆目标与颜色之间的关联,成功率会急剧降低。研究人员注意到,在这些场景中,DALL·E对于标题文本的重新表述是脆弱的、可替代的,语义上等价的标题文本通常不会产生正确的解释。

可视化透视与三维

研究人员发现DALL·E还能够控制场景的视点和渲染场景的3D样式。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

为了进一步验证DALL·E的这个能力,研究人员测试了DALL·E在同等视角下重复绘制知名人物头部的能力,并发现DALL·E可以成功恢复旋转头部的平滑动画。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

DALL·E能够将某些类型的光学畸变(Optical Distortions)应用到具体场景中,正如我们在“鱼眼透镜视图(Fisheye Lens View)”和“球形全景图(SphErical Panorama.)”等场景中看到的那样。它促使研究人员探索其产生光学反射的能力。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

可视化内部和外部结构

“特写镜头(Extreme Close-up View)”和“x射线(X-Ray)”风格的案例使研究人员进一步探索了DALL·E运用横截面视角绘制内部结构和用宏观图像绘制外部结构的能力。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

推断上下文细节

将文本翻译成图像的任务是不明确的:一个标题文本通常可以对应无限多种图像,换句话说,图像不是唯一确定的。例如,假如标题文本是“日出时,坐在田野上的水豚的绘画像。根据水豚的方位,可能需要画一个阴影,但这个细节没有被明确提及。

研究人员探讨了DALL·E在以下三种情况下解决无规范标准问题的能力:改变风格、设置和时间;在各种不同的情况下绘制同一目标图像;在生成目标图像上书写指定文本。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

利用不同程度的可靠性,DALL·E为通过自然语言实现3D渲染引擎功能提供了一种途径。它可以独立地控制少量目标的属性,并在有限的范围内控制目标的数量以及它们之间的排列方式。它还可以控制渲染场景的位置和角度,并且根据角度和照明条件生成精确且规范的已知目标。

与3D渲染引擎不同,3D渲染引擎的输入必须明确且完整,当标题文本暗示图像必须包含未明确的特定细节时,DALL·E通常能够“填补空白”。

应用案例

研究人员探讨了上述功能在时尚设计和室内设计中的应用。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

组合不相关的概念

语言的构成本质使人们能够将概念描述集成在一起,用以描述真实和虚构的事物。 OpenAI发现,DALL·E还具有将完全不同的idea结合起来以合成物体的能力,其中有些物体不可能在现实世界中存在。

OpenA在两种情况下探索这种能力:将各种概念的特质传递给动物,以及从不相关的概念中汲取灵感来设计产品。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

在上一部分中探讨了DALL·E在生成真实物体的图像时结合无关概念的能力。 接下来,OpenAI通过在艺术的背景下的三种插图探索这种能力:动物和物体的拟人化版本、动物嵌合体、表情符号。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

零样本视觉推理

可以仅根据说明和提示来指示GPT-3执行多种任务,而无需任何额外训练。例如,当提示短语“将‘在公园里walking狗的人’被翻译成法语:”时,GPT-3会回答“un homme quipromèneson chien dans le parc。此功能称为零样本推理。

OpenAI发现DALL·E将此功能扩展到了视觉领域,并且在以正确的方式提示时,能够执行多种图像到图像的翻译任务。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

OpenAI惊讶地发现DALL·E居然有这种神奇的能力,因为他们没有对神经网络或训练程序进行任何修改。

受这些结果的启发,OpenAI通过在Raven的渐进矩阵上进行测试来衡量DALL·E对于解决类推推理问题的能力,这是一种视觉智商测试,在20世纪得到了广泛应用。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

地理知识

OpenAI 发现DALL·E了解地理事实、地标和街区。 它对这些概念的了解在某些方面出奇地精确,而在另一些方面却有缺陷。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

时间知识

除了探索DALL·E关于随空间变化的概念的知识外,OpenAI还探索了其随时间变化的概念的知识。

祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

总结:方法和先前工作

DALL·E是一个仅有解码器的Transformer架构,它可以接收1280个token的文本和图像作为单个流(文本为256个token,图像为1024个token),并对它们全部进行自动回归建模。

它的64个自注意力层中的每一个都具有注意力mask,使每个图像token都可以匹配所有文本token。DALL·E对文本token使用标准的因果mask,以行、列或卷积注意模式对图像token使用稀疏注意,具体取决于层数。

与VQVAE-2中使用的rejection sampling类似,OpenAI使用CLIP对每个文本生成的512个采样中的前32个进行排名。此过程也可以看作是一种语言指导的搜索,会对样本质量产生巨大影响。

GPT-3已经向我们展示,可以用语言来指示大型神经网络执行各种文本生成任务。Image GPT则表明,同样类型的神经网络也可以用来生成高保真的图像。OpenAI进一步扩展了这些发现,以表明通过语言操纵视觉概念是触手可及的。

与GPT-3一样,DALL·E是一种Transformer语言模型。OpenAI认为,涉及生成模型的工作可能会产生重大而广泛的社会影响。因此未来,OpenAI会计划分析像DALL·E这样的模型如何与社会问题联系起来,例如对某些工作流程和专业的经济影响,模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。

最后,Henry AI Labs在YouTube上分享了一个视频,简要介绍了OpenAI的DALL-E模型,并表示“希望可以清楚说明深度神经网络中文本和图像是如何作为张量统一的。”

由于是非官方解释,仅供参考。

最后,大家对DALL·E 这个的神经网络模型有什么应用上的期待呢?二维设计师?

又会觉得它会引导什么AI革命吗?又或者觉得它会存在很多不可避免的限制?

参考链接:

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/7c79f3dbbd62fbc21f28.html
全局中部横幅
全局中部横幅
搜狗PC权重查询

查询搜狗PC权重和搜狗PC的关键字排名

展锋

展锋_新浪博客,展锋,展锋:临界点下收破,不翻多就观望!,展锋:临界点收破,调整开始?还是虚晃一枪?,展锋:临界点3126.17,得失非常关键!,展锋:临界点要盯牢,新高机会还有!,展锋:继续弱势回落,临界点得失关键!,展锋:突破回落伤人气,还会继续上涨吗?,展锋:突破3066.94翻多,持续性还需观察!,展锋:2993.14得失关键,耐心等待再图谋!,展锋:317家个股跌停,护盘的意义何在?,展锋:“国九条”利多来袭,大盘会拉长阳吗?

有机肥设备/有机肥生产设备/有机肥加工设备

专业有机肥设备,有机肥生产线加工设备厂家,厂家直销,价格优惠,质量有保证.华强产品覆盖肥料发酵翻抛、烘干冷却、搅拌配料、制粒包装设备,设备先进,经济效益高.欢迎广大客户来电咨询:0371-86570111

奥克斯

奥克斯集团(AUX)始创于1986年,产业涵盖空调、用电、配电、新能源、医疗等领域,连续多年位列中国企业500强。⾯向新的时代,奥克斯秉承“创领智能生活,培养优秀人才”的企业使命,力争实现“千亿市值、千亿规模、百亿利润”战略⽬标,⽴志成为世界著名企业。

公司注册

【四叶草企服】一站式企业服务平台,专业代理注册公司及个体工商户营业执照办理,免费咨询公司注册流程及所需申请材料,提供公司注册地址、年审、代理记账、变更、注销一站式服务。―四叶草企服―业务地点分布上海各区及全国各省市。

智能心电衣/心电监测/精准医疗

善行医疗是国家高新技术企业,领先的智慧医疗健康解决方案供应商,研发十二导医用智能心电衣,是十二导智能心电衣团体标准制订单位,已获得CFDA认证。公司还研发可穿戴脑电设备、智能针灸衣、智能康复衣、智能肌电衣、智能减脂衣等主要产品,相关产品在CFDA、CE、FDA等国内外机构均通过认证,拥有两百余项专利、PCT,并在诊疗、监测、保健等方面均获得突破性的成果。

深圳会展中心

深圳会展中心集展览、会议、商务、餐饮、娱乐等多功能于一体,由深圳市政府投资兴建,委托深圳会展中心管理有限责任公司经营,于2004年正式投入使用。自2004年开馆以来,已成功举办近300场展览,1350多场会议,共接待观众达2,000多万人次。

FRM培训,FRM考试报名,金融风险管理师证书培训

融跃教育是专业的FRM培训机构,为考生提供FRM考试、FRM报名、备考辅导等服务。为考生量身定制FRM培训课程,提供专业的学习平台,帮助考生顺利通过FRM考试!

济宁市住房公积金管理中心

济宁公积金管理中心,统一服务电话:12345,可查询业务包括:公积金贷款利率,通知公告,业务指南,新闻动态,服务渠道,网上贷款利率,主任信箱,客服电话,网点查询,党建工作,在线留言,合作楼盘,下载中心,政府信息公开等。

水泵控制柜,消防控制柜,消防巡检柜,消防泵控制柜,消防水泵控制柜,上海熠阔电气有限公司

上海熠阔电气有限公司专业生产消防泵控制设备,消防泵自动巡检控制设备,消防泵双电源控制设备,消防排烟风机控制设备,消防排烟风机欢迎联系021-57490329


全局底部横幅