2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > [论文阅读]SofGAN: A Portrait Image Generator with Dynamic Styling

[论文阅读]SofGAN: A Portrait Image Generator with Dynamic Styling

时间:2023-05-02 10:14:04

相关推荐

[论文阅读]SofGAN: A Portrait Image Generator with Dynamic Styling

SofGAN能产生效果很好,且能进行编辑的多视角图像。

该模型能控制pose,但其它特征编辑是通过别的论文中的方法实现的(Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. . Interpreting the latent space

of gans for semantic face editing)

SofGAN的核心是其中的SIW-StyleGAN。SIW-StyleGAN以2D分割图和texture code作为输入,改变2D分割图和texture code就能进行多属性编辑。

这个2D分割图可以来自手动绘制,也可以由shape code自动生成。

总而言之,生成一个图片需要texture code和shape code。

shape code(z_g)决定了3D形状,用于生成3D分割图。

texture code(z_t)决定图像纹理,被用于后续的2D SIW-StyleGAN。

具体来说,z_g采样自 learned Gaussian mixture,然后输入SOF Net产生3D的分割图。SOF Net基于Occupancy Net(NeRF的前身,和NeRF类似,也是把坐标映射为特征)和hypernetwork。有了3D分割图,就可以根据ray marching找到所需角度的2D分割图。

texture code z_t采样自高斯分布,经过一系列mlp mapping后输入后续的生成器。

这里的生成器叫做SIW StyleGAN,结构和StyleGAN2类似。StyleGAN2的输入端是一个51244的learnable constant,而SIW StyleGAN将其换成了前文说的2D分割图,并且在后面所有的style mixing layers,2D分割图都能通过一个pixel-wise的乘法限制style改变的区域(见下图2个图)。这也是为什么SIW StyleGAN能保证很好的 multiview consistency和精准的区域编辑——这一切主要得益于这个spatial mask。而这种区域特征解纠缠是latent space manipulation流派很难做到的。

当然,该模型也有缺点:

(1)就是前面的3D分割图(就是SOF Net)的生成有点复杂,不然可以用于其他数据集。

(2)无法保证pixel-level multiview consistency,只能保证regional-level。

(3)capturing symmetry, structured pattern有一定困难

。。。。。。

有些细节比较奇怪

效果图:

pipeline:

效果挺牛的,可以去原论文看一下图:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。