[论文阅读]SofGAN: A Portrait Image Generator with Dynamic Styling

时间：2023-05-02 10:14:04

SofGAN能产生效果很好，且能进行编辑的多视角图像。

该模型能控制pose，但其它特征编辑是通过别的论文中的方法实现的（Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. . Interpreting the latent space

of gans for semantic face editing）

SofGAN的核心是其中的SIW-StyleGAN。SIW-StyleGAN以2D分割图和texture code作为输入，改变2D分割图和texture code就能进行多属性编辑。

这个2D分割图可以来自手动绘制，也可以由shape code自动生成。

总而言之，生成一个图片需要texture code和shape code。

shape code（z_g）决定了3D形状，用于生成3D分割图。

texture code（z_t）决定图像纹理，被用于后续的2D SIW-StyleGAN。

具体来说，z_g采样自 learned Gaussian mixture，然后输入SOF Net产生3D的分割图。SOF Net基于Occupancy Net（NeRF的前身，和NeRF类似，也是把坐标映射为特征）和hypernetwork。有了3D分割图，就可以根据ray marching找到所需角度的2D分割图。

texture code z_t采样自高斯分布，经过一系列mlp mapping后输入后续的生成器。

这里的生成器叫做SIW StyleGAN，结构和StyleGAN2类似。StyleGAN2的输入端是一个51244的learnable constant，而SIW StyleGAN将其换成了前文说的2D分割图，并且在后面所有的style mixing layers，2D分割图都能通过一个pixel-wise的乘法限制style改变的区域（见下图2个图）。这也是为什么SIW StyleGAN能保证很好的 multiview consistency和精准的区域编辑——这一切主要得益于这个spatial mask。而这种区域特征解纠缠是latent space manipulation流派很难做到的。

当然，该模型也有缺点：

（1）就是前面的3D分割图（就是SOF Net）的生成有点复杂，不然可以用于其他数据集。

（2）无法保证pixel-level multiview consistency，只能保证regional-level。

（3）capturing symmetry， structured pattern有一定困难

。。。。。。

有些细节比较奇怪

效果图：

pipeline:

效果挺牛的，可以去原论文看一下图：

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。