毛发不再粘屏幕 还能360度旋转 等变性perfect!皮肤 StyleGAN3问世 (毛发不牢固)

文章编号:45847 资讯动态 2024-12-09 StyleGAN3 图像合成质量 英伟达
StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源
AI科技评论报道

你永远不知道StyleGAN的想象力可以有多强大。

刚刚英伟达最新推出的升级版StyleGAN 3,因为一组合成艺术作品刷爆Twitter,不少网友感叹:AI 制造了人类无法理解的恐怖!

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

而更令人震惊的是,除了强大的 它没有幻影的丝滑级过渡,以及对细节的高精度处理!

StyleGAN生成式对抗网络是一种最先进的高分辨率图像合成方法,从最初的GAN到StyleGAN2变体,其图像合成能力一直在突破人类的想象,而这次升级版StyleGAN3的对生成细节的把控更是令人惊叹!

AI科技评论发现,这项研究出自英伟达最新论文《Alias-Free Generative Adversarial Networks》,论文中表明, 它从根本上解决了StyleGAN2 图像坐标与特征粘连的问题,实现了真正的图像平移、旋转等不变性 ,大幅提高了图像合成质量。

何谓等变性?简单理解就是生成的物体和图像的像素坐标没关系,仔细看下图:

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

你会发现StyleGAN2生成的动物毛发会粘在屏幕上,和动物的形态变化不一致。这就是StyleGAN变体一直无法解决的难题之一。果然魔鬼都在细节里!


我们知道,尽管生成式对抗网络具有层级卷积的性质,但由于过度依赖绝对像素坐标往往会出现图像细节“粘”在坐标上的现象, 原因多出自”粗糙“的信号处理过程和神经网络混叠上。

在这项研究中,英伟达将网络中的所有信号解释为连续的,并对架构进行轻微调整保证不需要的信息不会泄漏到分层合成过程,最终得到了 StyleGAN3,相比于StyleGAN2,它在保证了图像基本质量的同时, 明显改善了其内部的表示方式 使在亚像素尺度上也能实现绝对的平移和旋转。

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

虽然生成式对抗网络(generative adversarial networks, GAN)已被广泛用于各种应用,包括图像编辑、图像翻译以及视频生成,现有的控制生成的模型也达到了很高的水平,但总体而言,在合成过程的基础层面仍有极大的改善空间。

在现实世界中,图像在不同尺度上的细节往往是层次变化的。例如, 头部的移动可能导致头发、鼻子,甚至皮肤上毛孔随之改变。

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

通常,典型GAN生成器的结构化处理过程是:粗糙、低分辨率的特征通过上采样层分层细化,再通过卷积局部混合,以及非线性引入新的细节。这种体系结构可能基本还原了图像的表面特征,但它并没有以一种“自然而然”的方式合成更逼真的图像,也就是说, 粗糙特征确保了图像细节的存在,但没有控制它们的精确位置,细节被固定在了图像坐标上。

所形成的“纹理粘附”特征在隐藏表示的插值中清晰可见,打破了动态物体在空间中移动的连贯性。

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

创建更自然的转换层次的体系结构,让每个特征的精确亚像素位置都从底层粗特征中获得。 我们再来看一组最终的效果图:

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

可以看到,在头部移动的情况下,左图 StyleGAN2 生成的头发、皱纹等粘在了屏幕坐标上,而右图StyleGAN3生成的所有细节都可以连贯地转换,效果丝滑。

数据集中的效果同样如此, StyleGAN3中的场景与其余部分平滑地转换。

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

还可以注意到,在风景图生成中, StyleGAN3似乎已经学会模仿镜头运动(beach数据集)。

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

下图展示了几种“桥式()”配置中平移等变性或缺乏平移等变性的现象。

第一列图像是利用具有解析傅立叶输入特征的生成器生成的图像;第二列图像基于第一列图像,通过使用高质量的重采样滤波器进行反向平移来“不变换”像素。

第三列图像展示了前两列图像的不同。 对于完美“等变”生成器(第5张图和第6张图),前两列图像是相同的 ,由模图像边界(由于光裁剪而未显示)和重采样产生数字噪声。可以看出,在60 dB范围内,其在视觉上堪称完美。

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

下图以类似于上图的方式说明了StyleGAN3的旋转等变性。

第一行中的StyleGAN3-T只为平移等变性而设计,正如预期的那样,它在旋转不变性上完全失败了。第二行展示的是StyleGAN3-T的一种变体,它使用p4对称G-CNN实现旋转等变。在360度的人脸旋转中,在90度的倍数处是精确的,但在中间角度处会发生扭曲。 而StyleGAN3-R展示了高保真的旋转等变性(尽管视觉上还不算完美)。

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

下图展示了点态非线性(这里是ReLU)固有的混叠,以及StyleGAN3的解决方案。

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

:原始限带信号z,对其理想版本(上)进行采样(中),然后根据采样(下)进行重构。由于采样率足够高,可以捕获信号,因此不会发生混叠。

:在连续域(顶部)应用点向非线性会产生一个非光滑函数,这是由于在零交叉点处的剪切。采样这个信号(中间)并从样本(底部)重建函数会产生一个混叠的结果,因为由裁剪产生的高频不能用样本网格表示。

:在连续域中对ReLUed函数应用低通滤波器(上),再次得到平滑函数:对它进行采样(中间)可以实现真实的重构(底部)。

下图比较了StyleGAN3和StyleGAN2(第一行)的内部激活模式。StyleGAN3-T(中间,平移等变)和StyleGAN3-R(底部,旋转等变)两个等变网络构建图像的方式, 与StyleGAN2的最终图像中遵循特征的多尺度相位信号的方式完全不同。

基于StyleGAN3的构造,这些信号必须控制图像特征的外观和相对位置。研究人员假设局部定向振荡形成一个基底,从而使分层定位成为可能。 StyleGAN3的构造似乎使网络很自然地从低频输入的傅里叶特征构造图像。

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

下图解释了切片可视化对比,表明在人脸平移时,对于某个固定的坐标切片,StyleGAN3可以随人脸移动变化纹理,而StyleGAN2则倾向于生成固定的纹理。

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源


以上示例证明,StyleGAN的通过图像边界、像素噪声输入和位置编码以及混叠,可以利用中间层实现位置精确。

在GAN的相关文献中,混叠这一概念很少被提及,作者在这项研究中,提供了

他们发现,混叠网络具有放大并在多个尺度上组合图像像素的能力,这对于弱化固定在屏幕坐标中的纹理图案至关重要。并且实验证明,该网络还适用于深度学习中所有常用过滤器,甚至图像处理中使用的高质量过滤器。

当前的上采样滤波器在抑制混叠方面根本不够积极,而且需要具有超过100dB衰减的高质量滤波器。 这项研究提出了一种解决点态非线性引起的混叠的原理,考虑了它们在连续域的影响,并对结果进行适当的低通滤波。

一个基于1×1卷积的模型能够产生强旋转的等变生成器。 一旦适当地抑制了混叠以迫使模型实现更自然的层次细化,它的操作模式就会发现显著变化:坐标系统等内部表示,允许细节准确地附加到底层表面。这将显著改进用于生成视频和动画的模型。

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

效果如此完美,真的不是cherry-picking?

英伟达也怕你不服气,火速开源了项目,还提供了colab供小白尝试。

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源

版权文章,未经授权禁止转载。详情见 转载须知 。

StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源


本文地址: https://www.gpxz.com/article/10088611dfabd4897ed1.html
全局中部横幅
全局中部横幅
四川/重庆农村自建房设计效果图

建房圈专注于农村自建房屋别墅设计,[甲级设计院]设计实力服务客户上万家客户,获得业主的信赖,为业主提供农村自建房设计图,农村自建别墅设计图纸及效果图大全,建房圈定期更新原创别墅设计图纸,打造高品质农村自建别墅。咨询热线:18200583659(胡工)

网络推广

【15年壹起航】深耕于网络推广,专注全网营销,品牌维护,品牌推广,网站推广,企业品牌塑造,一手全网整合营销资源,自研建站系统及短视频系统,百家渠道代理商,3000+企业用户合作,联系壹起航。

万表

【万表官网】名表珠宝专业大平台,甄选全球高品质腕表珠宝!买天梭、浪琴、帝舵、欧米茄、劳力士、万国等世界名表,原装正品,全国联保。手表维修、闲置手表回收、名表鉴定、手表价格查询、买卖二手表,13年0假货,万表名匠终身售后。买手表,上万表!

南阳新能

南阳市新能新材料有限公司

万家姓网

万家姓网、百家姓、中华姓氏网、中华万家姓、中国家谱网、中华族谱网、家谱网、族谱网---中国第一姓氏文化门户网站

珠海网站建设

珠海市盛大信息科技有限公司是一家本地网站建设公司,我们专注网站营销、定制企业官网、响应式网站建设、微信营销推广、网站推广营销、网站托管等为企业客户提供一站式网站设计解决方案,做网站建设服务电话:0756-6887775

博山潜水泵

博山腾亿水泵厂主要生产质量可靠的博山潜水泵,热水潜水电泵,水环式真空泵、旋片式真空泵,矿用渣浆泵等系列产品,产品质量稳定,品种繁多,规格齐全,价格优惠.服务热线:0533-4685003

燃气表

盛世昌华仪表有限公司是集燃气表工厂、智能燃气表、NB-IoT燃气表、IC卡表、煤气表、沼气表、远传表、RS485脉冲表、工商业大口径燃气表、燃气流量计等研发生产的高新技术工厂!燃气表已出口俄罗斯及东南亚等多个国家和地区。

雪橇三傻

本站主要分享狗界雪橇三傻信息!萨摩耶,哈士奇,阿拉斯加,这仨货是大名鼎鼎的雪橇三傻,有时候它们的智商真会让人怀疑这到底是不是狗狗该有的智商。

BMI计算器

免费在线BMI计算器,1秒计算身体质量指数,提供中国标准BMI对照表。

互联百科

互联百科提供海量优质的范文、经验、百科、常识、知识、问答供大家学习和了解。


全局底部横幅