DALL·E AI设计师 2!谷歌大脑推出新的文本生成图像模型 逼真度超越 (Dall·E下载)

文章编号:37866 资讯动态 2024-11-30 OpeAI Google Imagen Brain

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

文本生成图像模型界又出新手笔!

这次的主角是Google Brain推出的 Imagen,再一次突破人类想象力,将文本生成图像的逼真度和语言理解提高到了前所未有的新高度!比前段时间OpeAI家的

话不多说,我们来欣赏这位AI画师的杰作~

A brain riding a rocketship heading towards the moon.(一颗大脑乘着火箭飞向月球。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

A dragon fruit Wearing karate belt in the snow.(在雪地里戴着空手道腰带的火龙果)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

A marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.(一只带着巨大耳机的考拉DJ的大理石雕像站在一个大理石转盘前。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.(陈列莫奈画作的美术馆被水淹没。机器人正在使用桨板在美术馆里划行。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

A giant cobra snake on a farm.The snake is made out of corn(农场里有一条巨大的玉米构成的眼镜蛇。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

Teddy bears swimming at the Olympics 400m Butterfly event.(泰迪熊在奥运会400米蝶泳项目中游泳。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

给出同样的文本提示,Imagen还可以生成不同类别的图像。比如下面这些图中,各组图片在物品的颜色、空间位置、材质等范畴上都不太相同。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen



Imagen的工作原理
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

Imagen基于大型transformer语言模型在理解文本方面的能力和扩散模型在高保真图像生成方面的能力。

在用户输入文本要求后,如“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”,Imagen先是使用一个大的冻结(frozen)T5-XXL 编码器将这段输入文本编码为嵌入。然后条件扩散模型将文本嵌入映射到64×64的图像中。

Imagen进一步利用文本条件超分辨率扩散模型对64×64的图像进行升采样为256×256,再从256×256升到1024×1024。结果表明,带噪声调节增强的级联扩散模型在逐步生成高保真图像方面效果很好。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:输入“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”后Imagen的动作

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:64 × 64生成图像的超分辨率变化。对于生成的64 × 64图像,将两种超分辨率模型分别置于不同的提示下,产生不同的上采样变化

大型预训练语言模型×级联扩散模型

Imagen使用在纯文本语料中进行预训练的通用大型语言模型(例如T5),它能够非常有效地将文本合成图像: 在Imagen中增加语言模型的大小,而不是增加图像扩散模型的大小, 可以大大地提高样本保真度和图像-文本对齐。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen




引入新基准DrawBench

为了更深入地评估文本到图像模型,Google Brain 引入了DrawBench,这是一个全面的、具有挑战性的文本到图像模型基准。通过DrawBench,他们比较了Imagen与VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法,发现人类评分者在比较中更喜欢Imagen而不是其他模型,无论是在样本质量上还是在图像-文本对齐方面。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:Imagen与DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比较:用户对图像-文本对齐和图像逼真度的偏好率(95%置信区间)

Imagen与DALL-E 2 生成图像的比较示例 :

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:“外星人绑架奶牛,将其吸入空中盘旋”(上);“一个被猫绊倒的希腊男性的雕塑”(下)

对于涉及颜色的文本提示,Imagen生成的图像也比DALL-E 2更优。DALL-E 2通常很难为目标图像分配正确的颜色,尤其是当文本提示中包含多个对象的颜色提示时,DALL-E 2会容易将其混淆。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:Imagen和DALL-E 2从颜色类文本生成图像的比较。“一本黄色书籍和一个红花瓶”(上);“一个黑色苹果和一个绿色双肩包”(下)

而在带引号文本的提示方面,Imagen生成图像的能力也明显优于DALL-E 2。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:Imagen 和 DALL-E 2 从带引号文本生成图像的比较。“纽约天际线,天上有烟花写成的“Hello WORLD”字样”(上);“一间写着Time to Image的店面”(下)




打开了潘多拉魔盒?

像Imagen这样从文本生成图像的研究面临着一系列伦理挑战。

首先,文本-图像模型的下游应用多种多样,可能会从多方面对社会造成影响。Imagen以及一切从文本生成图像的系统都有可能被误用的潜在风险,因此社会要求开发方提供负责任的开源代码和展示。基于以上原因,Google决定暂时不发布代码或进行公开展示。而在未来的工作中,Google将探索一个负责任的外部化框架,从而将各类潜在风险最小化。

其次,文本到图像模型对数据的要求导致研究人员严重依赖于大型的、大部分未经整理的、网络抓取的数据集。虽然近年来这种方法使算法快速进步,但这种性质的数据集往往会夹带社会刻板印象、压迫性观点、对边缘群体有所贬损等“有毒”信息

为了去除噪音和不良内容(如色情图像和“有毒”言论),Google对训练数据的子集进行了过滤,同时Google还使用了众所周知的LAION-400M数据集进行过滤对比,该数据集包含网络上常见的不当内容,包括色情图像、种族主义攻击言论和负面社会刻板印象。Imagen依赖于在未经策划的网络规模数据上训练的文本编码器,因此继承了大型语言模型的社会偏见和局限性。这说明Imagen可能存在负面刻板印象和其他局限性,因此Google决定,在没有进一步安全措施的情况下,不会将Imagen发布给公众使用。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

原创文章,未经授权禁止转载。详情见 转载须知 。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen


本文地址: http://www.gpxz.com/article/03247f0c40f3e8afcdef.html
全局中部横幅
HeyFriday

FridayAI智能写作平台,一键生成高质量原创内容!FridayAI-国内顶尖算法模型,AI自动生成原创文章,60+丰富写作模板,十大写作场景全覆盖,支持改写,续写,扩写,搜索引擎优化,全场景媒体运营神器!

百度学术

百度学术搜索,是一个提供海量中英文文献检索的学术资源搜索平台,涵盖了各类学术期刊、学位、会议论文,旨在为国内外学者提供最好的科研体验。

关键词SEO优化,百度搜索引擎网站排名推广

云客网(www.yuntask.com)是SEO行业的众包服务平台,对搜索引擎排名前两页的关键词按天扣费的预存式模式。目前云客网平台SEO优化师规模16000+,已成为了较大的搜索引擎优化技术服务人员SEO优化师集聚平台;致力于打造成国内(全球)知名的SEO众包服务交易平台。

环保评估

河北绿创环境工程有限公司是一家集环保、电力为一体的综合性服务机构。经营范围包括:清洁生产审核、环境影响评价、环境工程治理、环保设备代理、电力设施承装(修、试)、电力工程施工、光伏设备销售、安装及售后服务等。电话:0311-67668058

企业推广平台

国通网专注为中小微企业打造高效的网络营销平台,坚持以企业营销刚需为切入点,为中小微企业的发展赋能。不局限于对企业互联网推广的追踪与探索,更要向未来、向未知的方向迈进。以技术为核心,产品为导向,平台为基础,服务为价值,为中小微企业提供一站式网络营销服务。

广州市旭生建筑工程有限公司

旭生始创于2005年,一直致力为外资企业客户提供厂房、办公室、住宅等设计与施工为一体的优质土建,内装及补修等工事。

香港注册公司

港盛国际海外公司注册机构提供香港注册公司,香港公司开户,注册香港贸易公司,香港开户,注册香港公司,香港公司注册,离岸账户,香港银行开户,香港离岸账户,香港公司银行开户,开离岸账户,香港账户,新加坡银行开户,海外银行开户,离岸银行开户,注册美国公司,美国公司注册,注册香港公司多少钱,注册新加坡公司,新加坡公司注册等服务。

变频串联谐振

湖北仪天成电力设备有限公司致力于自主研发及生产变频串联谐振,微机继电保护测试仪,直流电阻测试仪,互感器测试仪,电缆故障测试仪,氧化锌避雷器测试仪,变压器检测仪,高压开关测试仪等电力测试设备及智能仪器仪表,以及为广大电力企业、科研机构等提供电力测试解决方案,并提供完善的售后服务的高新技术企业。

嘟嘟牛

想米收银,餐饮收银服务商,最好的餐饮收银系统!想米提供网络收银机,餐饮收款机,餐饮管理系统软件,餐饮收银系统,外卖订餐系统,网上订餐系统等。

风影分发

CSDN是全球知名中文IT技术交流平台,创建于1999年,包含原创博客、精品问答、职业培训、技术论坛、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区.


全局底部横幅