生成对抗网络(GANs)在学习从给定数据集指定的分布中采样方面非常成功,特别是给定数据集的数据量远大于其维度时。当数据有限时,经典的生成对抗网络生成的图像的质量会有显著降低,而输出正则化、数据增强、使用预训练模型和修剪等策略已被证明可以改善这种情况。然而这些方法常受限于特定的设置,例如预训练模型受限于数据的类型等。相比之下,本文提出的正则化方法通过优化鉴别器在真实图像与生成样本的梯度范数之间的差值来增强现有的生成对抗网络,并且具有很强的兼容性,适用于大多数现有的生成对抗网络。在数据有限的情况下显著的改善了训练成果。 Generative adversarial networks (GANs) are very successful at learning to sample from a specified distribution of a given dataset, especially when the amount of data in a given dataset is much larger than its dimensions. Classical generative adversarial networks struggle when data is limited, while strategies such as output regularization, data augmentation, using pre-trained models, and pruning have been shown to bring improvements. However, these methods are often limited by specific set-tings. For example, pre-trained models are limited by the type of data. In contrast, the regulariza-tion method proposed in this paper enhances the existing generative adversarial network by opti-mizing the difference between the discriminator between the real image and the gradient norm of the generated sample, and has strong compatibility applicable to most existing generative adver-sarial networks. Training outcomes were significantly improved when data were limited.
生成对抗网络(GANs)在学习从给定数据集指定的分布中采样方面非常成功,特别是给定数据集的数据量远大于其维度时。当数据有限时,经典的生成对抗网络生成的图像的质量会有显著降低,而输出正则化、数据增强、使用预训练模型和修剪等策略已被证明可以改善这种情况。然而这些方法常受限于特定的设置,例如预训练模型受限于数据的类型等。相比之下,本文提出的正则化方法通过优化鉴别器在真实图像与生成样本的梯度范数之间的差值来增强现有的生成对抗网络,并且具有很强的兼容性,适用于大多数现有的生成对抗网络。在数据有限的情况下显著的改善了训练成果。
生成对抗网络,图像生成,正则化,梯度范数
Tianbao Wu, Fang Xu, Yunxuan Zhang*
School of Science, Southwest Petroleum University, Chengdu Sichuan
Received: Feb. 27th, 2023; accepted: Mar. 24th, 2023; published: Mar. 31st, 2023
Generative adversarial networks (GANs) are very successful at learning to sample from a specified distribution of a given dataset, especially when the amount of data in a given dataset is much larger than its dimensions. Classical generative adversarial networks struggle when data is limited, while strategies such as output regularization, data augmentation, using pre-trained models, and pruning have been shown to bring improvements. However, these methods are often limited by specific settings. For example, pre-trained models are limited by the type of data. In contrast, the regularization method proposed in this paper enhances the existing generative adversarial network by optimizing the difference between the discriminator between the real image and the gradient norm of the generated sample, and has strong compatibility applicable to most existing generative adversarial networks. Training outcomes were significantly improved when data were limited.
Keywords:Generate Adversarial Network, Image Generation, Regularization, Gradient Norm
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
生成式对抗网络(Generative adversarial network,简称GANs)自Ian Goodfellow [
在实践中,常常遇到数据维度很高且数据量较少的情况。这种情况会致使GANs的性能显著降低,例如使用StyleGAN端对端生成图片时,使用20%的FFHQ (1024*1024分辨率)数据集得到的FID值为18.6,使用10%的FFHQ (1024*1024分辨率)数据集时得到的FID值为25.6 (FID越小越好),性能明显的下降。为了解决GAN性能下降的问题,最近提出了各种策略,包括使用预训练模型 [
在本文中,我们研究了一种新的正则化方法来增强有限数据下的GANs训练。
生成对抗网络。已经提出了许多GAN变体来稳定训练并提高生成结果的感知质量。主要分为三个方向:1) 研究了不同的损失函数。2) 设计新的体系结构 [
GANs的正则化,正则化技术被广泛用于稳定训练,其中最具有代表性的就是WGAN。WGAN中最小化了真实分布和生成分布的Wasserstein距离,鉴别器(Discriminator, D)的正则项为1-Lipschitz,通过在真实数据和生成数据之间进行插值,惩罚鉴别器相对于输入数据点的梯度。Roth等人 [
数据不足导致GAN训练变得更具挑战性。已经提出了一些方法来提高用有限数据训练的GANs的性能。较为常见的方法是使用数据增强,Jiang等人 [
本文的主要贡献有3个方面:
1) 本文设计了一种新的正则项,该正则项具有很强的兼容性,适用于多种模型,本文的正则项几乎不增加计算成本。
2) 使用新的正则项,有效地改善了图像的质量。在有限的数据集上对于图像质量有明显的提升,在数据量足够的数据集上生成的图像包含更多的细节。本文的正则项几乎不增加计算成本。
生成对抗网络(GANs)由一个生成器(Generator, G)和一个鉴别器(Discriminator, D)组成,它们相互竞争。生成器 G ( z ; θ ) 由参数 θ 的调整使输入的一个简单的低维分布 p ( z ) (例如高斯分布)向包含有高纬度数据的 χ 域学习,使二者最终形成一个复杂的映射。鉴别器 D ( x ) 被训练区分真实数据 x R ~ χ 与合成数据 x F = G ( z ; θ ) 。生成器与鉴别器之间博弈过程可以由两个损失函数表示:
L G = Ε z ~ p ( z ) [ ι G ( − D ( G ( z ; θ ) ) ) ] , L D = Ε z ~ p d a t a ( x ) [ ι G ( − D ( x ) ) ] + Ε z ~ p ( z ) [ ι G ( D ( G ( z ; θ ) ) ) ] . (1)
对于不同的生成对抗模型,使用的损失函数有所不同,例如 ι G ( t ) = ι D ( t ) = log ( 1 + exp ( t ) ) 或者 ι G ( t ) = t , ι D ( t ) = max ( 0 , 1 + t ) 。
Karras等人和Tseng等人在实验中发现数据量越少模型生成图像的质量越低,当数量低于一定的值时,模型无法收敛。具体来说,当使用100%、20%、10%的Flickr FaceHQ (FFHQ)数据集分别来训练DCGAN,在使用10%或者20%的数据集时能够发现FID值(越低越好)会呈现急速的上升。
本文认为,数据量较少时模型的损失函数无法获取合理的梯度指导,导致函数始终在局部最优点处徘徊或者直接错过了最优点。通过实验发现在不同的数据使用比例下,使用真实数据与合成数据,它们在判别器上梯度的范数之间的差值存在明显的差异。具体来说,数据量越小时二者的梯度的范数差值越大(见图1)。
在数据量不足时,常见的解决方法有三种:数据扩充,模型架构改进,添加正则项。这三种方法中添加正则项相较于模型架构的改进,其优势在于可以节省更多的算力,因此添加正则项是成本更低的一种选择。
为了使模型在小样本下也能获取更加合理的梯度指导,能够获得更高质量的产出,本文提出一种新的正则化方法。梯度的范数差的数学表达式为:
图1. 梯度范数差
R ( D , x F , x R ) = ‖ ∂ D ∂ x R ‖ 2 − ‖ ∂ D ∂ x F ‖ 2 (2)
其中 x F 来自于生成器合成的数据即 x F = G ( z ; θ ) , x R 是来自于真实的数据。为了表述方便,我们称梯度的范数差为梯度差。
L ˜ D = L D + λ R t 3 R t = { ( ‖ ∂ D ∂ x R ‖ 2 − ‖ ∂ D ∂ x F ‖ 2 ) t if t = 1 , 2 ∑ t − 2 t ( ‖ ∂ D ∂ x R ‖ 2 − ‖ ∂ D ∂ x F ‖ 2 ) t 3 if t > 2 (3)
在(3)式中 λ R t 3 为判别器的正则项, λ 是一个非负的超参数,数据量越少该参数大。t为模型的迭代次数,考虑到梯度的突增或者突减而导致的误差,本文使用均值的手段来缓解误差所带来的影响。具体来说,就是考虑其前两次迭代的梯度值求和然后求其均值。 ∂ D / ∂ x R 是真实图像的梯度值, ∂ D / ∂ x F 是来自生成图像的梯度值。具体流程图如图2。
图2. 梯度提取流程图
本文配置的环境python3.7 + pytorch1.8.0 + cuda11,使用一张RTX-TITANX显卡(为了满足大多数模型的显存需求)。
数据集:在单一种类生成实验中,在256 × 256分辨率下,测试了动物脸狗和猫、100镜头奥巴马、熊猫和脾气暴躁的猫。在1024 × 1024分辨率下,测试了Flickr FaceHQ (FFHQ)、牛津花、WikiArt的艺术画、Unsplash的自然景观照片、Pokemon、动漫脸、头骨和贝壳。这些数据集旨在涵盖具有不同特征的图像:写实照片、图形插图和类似艺术的图像。在多样性实验中使用CIFAR-100数据集。
除开CIFAR-100数据集外,模型主要使用256*256与1024*1024这两个分辨率的数据集。其原因主要有一下几点1):首先这两种分辨率是常用的图片分辨率。2) 使用256*256作为先验数据集验证模型的改动是否有效,有效后在使用高分辨率的图片训练模型可以有效的减少计算量。3) 1024*1024分辨率代表了图像生成的绝对质量,是对模型生成能力最大考验(图像超分辨率下除外)。
评估指标:1) 我们采用Fréchet起始距离(FID)来度量模型生成的图片的质量,FID量化生成图像和真实图像的分布之间的距离。对少于1000张图像的数据集(大多数只有100张图像),我们让G生成5000张图像,并计算合成图像和整个训练集之间的FID (FID值越低表示生成的图像质量越高)。2) 使用IS (inception score)值,IS值可以体现模型生成图像的质量的好坏与多样性的丰富程度(IS值越高越好)。
在该实验中选取具有代表性的三个模型:1) 最先进的(SOTA)无条件模型StyleGAN2,2) BIGGAN模型。3) WGAN模型。在选取的三个模型中使用正则项 λ R t 3 进行对比。所有的模型均迭代100,000次,批次大小为16。
通过表1的对比试验,容易发现在添加了正则项的模型与未添加正则项的模型在数据量较少的部分提升是显著的。当数据量达到一定的规模时,提升的效果逐渐减弱,这是符合预期的结果。在数据量充足时,有足够多的数据支撑模型原本的损失函数去求其梯度值,得到的梯度值是较为稳定使得模型的能有较为稳定的输出。
Art Paintings | FFHQ | Nature Photograph | |||||||
---|---|---|---|---|---|---|---|---|---|
图片数量 | 10% data | 20% data | 100% data | 10% data | 20% data | 100% data | 10% data | 20% data | 100% data |
WAGN | 80.6 | 61 | 59.3 | 36.8 | 29.6 | 23.2 | 78.3 | 69.2 | 60.1 |
WGAN + λ R t 3 | 42.3 | 41.3 | 39.9 | 19.1 | 18.3 | 16.4 | 49.3 | 45.1 | 41.2 |
StyleGAN | 70.6 | 50.69 | 43.1 | 25.6 | 18.6 | 8.31 | 75.3 | 56.3 | 42.1 |
StyleGAN + λ R t 3 | 48.1 | 41.32 | 34.3 | 16.8 | 9.41 | 6.32 | 53.6 | 48.6 | 31.9 |
BIGGAN | 75.6 | 68.3 | 50.6 | 34.1 | 29.6 | 15.6 | 78.6 | 59.1 | 47.1 |
BIGGAN + λ R t 3 | 59.1 | 53.8 | 30.1 | 28.3 | 25.1 | 9.4 | 62.1 | 51.1 | 32.1 |
表1. 1024*1024分辨率部分数据集的FID比较
在上述的实验中,对比的模型本身就是较为优秀的模型。为了进一步体现本文的正则项 λ R t 3 的效果,将使用更少的数据量(几百张)来进行消融实验(见表2)。
由表2的结果可知, λ R t 3 的在数据量越少的情况下展现的效果是越明显的。值得注意的,在数据量较少的情况下对于 λ 的选择就比较重要了。例如,在表3的实验中取定 λ = 100 。这样取值主要是本文认为一般的损失函数以及正则项不能很好的反应出梯度变化的趋势,更多的是保证模型的收敛以及稳定性。本文提出的正则项可以直观的体现出数据量带来的影响,那么在数据量较少的情况下提升其在损失函数中的占比是有助于模型更快更好的收敛的。
Animal Face - Dog | Animal Face - Cat | Obama | Panda | Grumpy-cat | |
---|---|---|---|---|---|
图片数量 | 389 | 160 | 100 | 100 | 100 |
WAGN | 61.03 | 46.07 | 35.75 | 34.5 | 29.34 |
WGAN + λ R t 3 | 48.31 | 35.96 | 29.44 | 27.2 | 24.61 |
StyleGAN | 60.23 | 45.06 | 47.14 | 40.03 | 26.65 |
StyleGAN + λ R t 3 | 44.32 | 33.21 | 37.26 | 35 .32 | 23.13 |
BIGGAN | 48.32 | 34.82 | 39.26 | 30.12 | 25.82 |
BIGGAN + λ R t 3 | 36.15 | 29.13 | 31.79 | 21.32 | 17.32 |
表2. 256*256分辨小数据集的FID比较
CIFAR-100数据更具挑战性,因为它包含100个类别,每个类别的图像更少。在表3中,由IS值作为主要的多样性指标,就结果来看增加正则项对于IS值是有正面影响的。
CIFAR-100 | ||||||
---|---|---|---|---|---|---|
图片数量 | 10% data | 20% data | 100% data | |||
FID | IS | FID | IS | FID | IS | |
WAGN | 49.61 | 5.98 | 35.12 | 7.56 | 23.41 | 8.12 |
WGAN + λ R t 3 | 28.44 | 6.51 | 23.41 | 8.12 | 17.31 | 8.71 |
BIGGAN | 75.91 | 5.42 | 38.12 | 8.61 | 13.82 | 12.44 |
BIGGAN + λ R t 3 | 31.81 | 8.05 | 26.71 | 9.21 | 12.61 | 10.15 |
表3. 64*64分辨率下的FID值与IS值
本文提出的正则化方法是一种基于梯度之间的范数差来设计的,该方法的优势在于它能匹配模型本身已经设计好的损失函数(正交)不需要修改原函数。其次,该正则化方法能够有效的缓解由数据量不足导致的模型性能的显著下降,并且该方法几乎不会增加计算的成本。不足之处在于,本文试图从理论的角度来分析该正则化方法,但是,由于对数据批量处理的执行方式,对所研究的损失进行理论分析极具挑战性,本文找不到一个具有严密逻辑性的数学解释。
吴天宝,徐 芳,张云轩. 基于梯度范数差值的一种正则化方法A Regularization Method Based on Gradient Norm Difference[J]. 应用数学进展, 2023, 12(03): 1367-1373. https://doi.org/10.12677/AAM.2023.123139
https://doi.org/10.1145/3439723
https://doi.org/10.1109/CVPR.2019.01032
https://doi.org/10.1145/3476576.3476706
https://doi.org/10.1145/3476576.3476706
https://doi.org/10.1109/ICCV.2017.244
https://doi.org/10.1109/CVPR52688.2022.01039
https://doi.org/10.1109/CVPR46437.2021.00783
https://doi.org/10.1109/CVPR.2019.00453