DALL·E AI设计师 2!谷歌大脑推出新的文本生成图像模型 逼真度超越 (Dall·E下载)

文章编号:37866 资讯动态 2024-11-30 OpeAI Google Imagen Brain

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

文本生成图像模型界又出新手笔!

这次的主角是Google Brain推出的 ImaGen,再一次突破人类想象力,将文本生成图像的逼真度和语言理解提高到了前所未有的新高度!比前段时间OpeAI家的

话不多说,我们来欣赏这位AI画师的杰作~

A brain riding a rocketship heading towards the moon.(一颗大脑乘着火箭飞向月球。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

A dragon fruit wearing karate belt in the snow.(在雪地里戴着空手道腰带的火龙果)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

A marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.(一只带着巨大耳机的考拉DJ的大理石雕像站在一个大理石转盘前。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.(陈列莫奈画作的美术馆被水淹没。机器人正在使用桨板在美术馆里划行。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

A giant cobra snake on a fArm.The snake is made out of corn(农场里有一条巨大的玉米构成的眼镜蛇。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

Teddy bears swimming at the Olympics 400m Butterfly event.(泰迪熊在奥运会400米蝶泳项目中游泳。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

给出同样的文本提示,Imagen还可以生成不同类别的图像。比如下面这些图中,各组图片在物品的颜色、空间位置、材质等范畴上都不太相同。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——



Imagen的工作原理
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

Imagen基于大型transformer语言模型在理解文本方面的能力和扩散模型在高保真图像生成方面的能力。

在用户输入文本要求后,如“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”,Imagen先是使用一个大的冻结(frozen)T5-XXL 编码器将这段输入文本编码为嵌入。然后条件扩散模型将文本嵌入映射到64×64的图像中。

Imagen进一步利用文本条件超分辨率扩散模型对64×64的图像进行升采样为256×256,再从256×256升到1024×1024。结果表明,带噪声调节增强的级联扩散模型在逐步生成高保真图像方面效果很好。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

图注:输入“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”后Imagen的动作

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

图注:64 × 64生成图像的超分辨率变化。对于生成的64 × 64图像,将两种超分辨率模型分别置于不同的提示下,产生不同的上采样变化

大型预训练语言模型×级联扩散模型

Imagen使用在纯文本语料中进行预训练的通用大型语言模型(例如T5),它能够非常有效地将文本合成图像: 在Imagen中增加语言模型的大小,而不是增加图像扩散模型的大小, 可以大大地提高样本保真度和图像-文本对齐。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——




引入新基准DrawBench

为了更深入地评估文本到图像模型,Google Brain 引入了DrawBench,这是一个全面的、具有挑战性的文本到图像模型基准。通过DrawBench,他们比较了Imagen与VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法,发现人类评分者在比较中更喜欢Imagen而不是其他模型,无论是在样本质量上还是在图像-文本对齐方面。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

图注:Imagen与DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比较:用户对图像-文本对齐和图像逼真度的偏好率(95%置信区间)

Imagen与DALL-E 2 生成图像的比较示例

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

图注:“外星人绑架奶牛,将其吸入空中盘旋”(上);“一个被猫绊倒的希腊男性的雕塑”(下)

对于涉及颜色的文本提示,Imagen生成的图像也比DALL-E 2更优。DALL-E 2通常很难为目标图像分配正确的颜色,尤其是当文本提示中包含多个对象的颜色提示时,DALL-E 2会容易将其混淆。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

图注:Imagen和DALL-E 2从颜色类文本生成图像的比较。“一本黄色书籍和一个红花瓶”(上);“一个黑色苹果和一个绿色双肩包”(下)

而在带引号文本的提示方面,Imagen生成图像的能力也明显优于DALL-E 2。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

图注:Imagen 和 DALL-E 2 从带引号文本生成图像的比较。“纽约天际线,天上有烟花写成的“Hello World”字样”(上);“一间写着Time to Image的店面”(下)




打开了潘多拉魔盒?

像Imagen这样从文本生成图像的研究面临着一系列伦理挑战。

首先,文本-图像模型的下游应用多种多样,可能会从多方面对社会造成影响。Imagen以及一切从文本生成图像的系统都有可能被误用的潜在风险,因此社会要求开发方提供负责任的开源代码和展示。基于以上原因,Google决定暂时不发布代码或进行公开展示。而在未来的工作中,Google将探索一个负责任的外部化框架,从而将各类潜在风险最小化。

其次,文本到图像模型对数据的要求导致研究人员严重依赖于大型的、大部分未经整理的、网络抓取的数据集。虽然近年来这种方法使算法快速进步,但这种性质的数据集往往会夹带社会刻板印象、压迫性观点、对边缘群体有所贬损等“有毒”信息。

为了去除噪音和不良内容(如色情图像和“有毒”言论),Google对训练数据的子集进行了过滤,同时Google还使用了众所周知的LAION-400M数据集进行过滤对比,该数据集包含网络上常见的不当内容,包括色情图像、种族主义攻击言论和负面社会刻板印象。Imagen依赖于在未经策划的网络规模数据上训练的文本编码器,因此继承了大型语言模型的社会偏见和局限性。这说明Imagen可能存在负面刻板印象和其他局限性,因此Google决定,在没有进一步安全措施的情况下,不会将Imagen发布给公众使用。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——

原创文章,未经授权禁止转载。详情见 转载须知 。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——


本文地址: https://www.gpxz.com/article/03247f0c40f3e8afcdef.html
全局中部横幅
全局中部横幅
2345PDF转换器

2345PDF转换器是一款可在用户本地电脑中进行文件处理的一款桌面办公软件,支持PDF转word、excel、ppt、图片以及该类文件互转、PPDF拆分合并、PDF添加密码、解除密码、OCR等功能。我们将带给您快速高效安全的体验。

找回密码

豆果美食为第一华人美食菜谱社区,提供各种美食、菜谱、食谱的做法,丰富的菜谱大全可以让您轻松地学会怎么做美食,展现自己的高超厨艺,与千万会员一同分享美味的人生!

太平洋科技

太平洋科技是专业IT门户网站,为用户和经销商提供IT资讯和行情报价,涉及电脑,手机,数码产品,软件等.

纺织网

纺织网是隶属于网盛生意宝旗下的纺织行业网站。为纺织人士提供:纺织贸易、纺织产品行情、纺织资讯信息、纺织人才招聘、纺织网交流论坛等服务。是纺织行业人士上网找生意的平台。

众技跑腿

同城跑腿加盟、同城跑腿即时服务平台,提供同城快递、同城配送、同城跑腿服务,同城快送找众技跑腿,40分钟送达,同城最快跑腿平台。代排队、医院排队、星巴克快送、同城快递、外卖、水果、鲜花、万能跑腿、汽车服务、到家服务、家政服务,随意购,要啥有啥。

履带式旋耕机

山东正丰机械制造有限公司是一家集生产,销售,维修履带式旋耕机,履带开沟施肥一体机的农业机械厂家.不受地形限制,适用多种场地.省心省力,省时省力,产量提升.

广东华兴银行

华兴银行股份有限公司(简称广东华兴银行)是经国务院有关部委批准,于2011年8月依法创新设立的一家股份制商业银行。注册资本为50亿元,注册地为汕头经济特区,运营总部设在广州市。

精灵物语官方正版官网下载

是一款正版宝可梦IP题材的养成回合手游。游戏中有1-9世代口袋妖怪全世代共800多只精灵、600多种技能、上百种精灵特性,全新3D建模,完美复现掌机精灵捕捉、精灵孵蛋、经典回合战斗等玩法,属性相克,精灵特性,特色技能,Mega进化应有尽有!更有比拼实力和策略的竞技场、跨服赛、策略联赛、联盟之夜等你来战!

星帮尼科技

气象监测是指气象监测机构通过气象监测系统对气象环境状况进行整体性监测和预警的活动。气象监测系统通过对反映气象质量的指标进行监测和上报,以确定该地降雨量、风速风向等气象环境数据。 气象监测(Meteorologicalmonitoring),是科学管理气象和气象执法监督的基础,是气象预测必不可少的基础性工作。气象监测的核心目标是提供气象要素现状及变化趋势的数据,预测气象变化,顺利解决当前主要气象问题,为气象管理服务。

就业宝

就业宝,毕业生找工作,找实习,参加高校官方双选会,就上就业宝。

德国公司注册

广州欧嘉商务咨询有限公司是一家专注于德国及欧洲商务投资的咨询机构,并全资拥有德国优赛康有限公司(EUTRACONGmbH),主要从事协助中国企业德国移民、注册德国公司、德国公司注册、成立德国公司、注册德国商标、德国商标注册、德国商务咨询、欧盟蓝卡等

Stupid

狼人、蜥蜴人、骷髅——在这个怪物横行的世界里,生活在社会底层卑微的僵尸戴维,为了复活被冻结的人类恋人朱莉娅,毅然踏入险象环生的地牢。快做好准备,踏入这场荒诞有趣的“极速成长”动作RPG之旅——《StupidNeverDies》!

全局底部横幅