SofGAN能产生效果很好,且能进行编辑的多视角图像。
该模型能控制pose,但其它特征编辑是通过别的论文中的方法实现的(Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. . Interpreting the latent space
of gans for semantic face editing)
SofGAN的核心是其中的SIW-StyleGAN。SIW-StyleGAN以2D分割图和texture code作为输入,改变2D分割图和texture code就能进行多属性编辑。
这个2D分割图可以来自手动绘制,也可以由shape code自动生成。
总而言之,生成一个图片需要texture code和shape code。
shape code(z_g)决定了3D形状,用于生成3D分割图。
texture code(z_t)决定图像纹理,被用于后续的2D SIW-StyleGAN。
具体来说,z_g采样自 learned Gaussian mixture,然后输入SOF Net产生3D的分割图。SOF Net基于Occupancy Net(NeRF的前身,和NeRF类似,也是把坐标映射为特征)和hypernetwork。有了3D分割图,就可以根据ray marching找到所需角度的2D分割图。
texture code z_t采样自高斯分布,经过一系列mlp mapping后输入后续的生成器。
这里的生成器叫做SIW StyleGAN,结构和StyleGAN2类似。StyleGAN2的输入端是一个51244的learnable constant,而SIW StyleGAN将其换成了前文说的2D分割图,并且在后面所有的style mixing layers,2D分割图都能通过一个pixel-wise的乘法限制style改变的区域(见下图2个图)。这也是为什么SIW StyleGAN能保证很好的 multiview consistency和精准的区域编辑——这一切主要得益于这个spatial mask。而这种区域特征解纠缠是latent space manipulation流派很难做到的。
当然,该模型也有缺点:
(1)就是前面的3D分割图(就是SOF Net)的生成有点复杂,不然可以用于其他数据集。
(2)无法保证pixel-level multiview consistency,只能保证regional-level。
(3)capturing symmetry, structured pattern有一定困难
。。。。。。
有些细节比较奇怪
效果图:
pipeline:
效果挺牛的,可以去原论文看一下图: