1. 引言
随着人工智能和深度学习的不断发展,越来越多的学者对医疗影像生成任务产生了浓厚兴趣。影像科医生长期从事高负荷的工作,不可避免地会产生视觉疲劳,出现漏、误诊等问题,基于人工智能的智能诊断系统可减轻放射科和临床医生的报告撰写负荷和诊断压力[1],人工智能与医疗影像技术的融合应用,可大大提高疾病诊断的效率与质量。但训练具有高准确性的模型一般需要大量的数据,某些病例的每年发生总数少,并且医疗数据具有强隐私性,在个别医院掌握病例少的情况下,医院用自己的少量数据训练属于自己的高准确性模型较困难。而随着近年生成式模型的发展,有望解决这一问题,其中生成对抗网络技术(GAN)由于独特的对抗性思想被广泛应用[2]。生成对抗网络技术是GOODFELLOW等[3]受零和博弈启发,提出了一种由生成器(G)和判别器(D)组成的对抗网络,生成对抗网络为解决医疗影像集不足的情况提供了新的思路。本文提出一种使用生成对抗网络的方法对肺结节影像数据集进行数据增扩,并采用改进网络结构的生成对抗技术对肺结节数据进行生成实验。
2. 研究背景
2.1. 图像增扩技术
由于医学成像技术的限制、标注过程耗时昂贵,以及隐私安全问题,使得医疗数据集增扩成为相关研究领域的热点问题。传统的数据集增扩方式主要包括样本采样和仿射变换两种方法。样本采样技术主要是改变数据集的原始分布,包括降采样、过采样或二者结合,以扩大数据集的图像总量。另一种传统方法是仿射变换,它是一种二维坐标到二维坐标之间的线性变换。通过仿射变换,可以实现图像的旋转、镜像、拉伸等操作,从而增加图像数据集的总量。除了样本采样和仿射变换外,还有一些其他方法,如扣取、遮罩、缩放、加噪等处理方式,其原理与仿射变换相同,通过改变原图的表现形式来改变其特征矩阵,从而迫使网络从语义上去理解图片,达到对数据集的增扩目的。
目前,国内外已经在图像补全、图像修复、图像翻译、图像上色、视频生成等应用领域开展生成对抗网络算法研究的工作[4],特别是图像修复领域已经取得了不少研究成果[5][6][7][8][9]。近年来,GAN技术在医疗领域也取得了不少研究成果。例如,文献[10][11][12]利用生成对抗网络技术,将含有噪声的医疗图像重建为清晰图像,为医护人员做出更准确的诊断提供了更好的基础。文献[13][14][15]利用生成对抗网络技术,对医疗影像重建进行了有效的研究探索。但使用生成对抗网络进行医疗图像增扩的研究相对比较缺乏,因此使用生成对抗网络技术对肺结节影像增扩具有较好的研究意义。
2.2. 生成对抗网络技术
2.2.1. GAN
生成对抗网络(GAN)主要原理是通过对输入随机噪声的处理,生成器不断生成虚假的数据,判别器的任务则是判别生成器所生成数据的真假,二者在相互对抗的过程中互相学习逐渐变强。最终,通过这种博弈,生成器可输出与真实数据相似度极高的新数据。生成对抗网络基本结构如图1所示。
Figure 1.Basic structure of GAN network
图1.GAN网络基本结构图
2.2.2. DCGAN
由RADFORD等[16]提出的DCGAN (Deep Convolutional Generative Adversarial Network),是一种改进的生成对抗网络模型架构。它开创性的将CNN与GAN网络相结合,显著提高了性能。相比于普通的GAN,DCGAN在学习医疗影像数据病灶特征方面更具适应性和丰富性。它能够捕获医疗影像隐含的特征分布,并合成全新的数据样本。
本文使用的DCGAN网络的生成网络结构如图2所示,其可提高GAN生成图片的稳定性、以及生成质量和种类丰富度。虽然改进的DCGAN性能上有所提升,但是并未解决GAN训练过程中的稳定性问题,在训练时仍需平衡生成器与鉴别器的训练进程[17]。
Figure 2.Architecture of the DCGAN generator network
图2.DCGAN生成网络结构图
2.2.3. WGAN-GP
由于原始GAN网络存在会导致梯度不稳定的问题,WGAN (Wasserstein Generative Adversarial Network)[18]改进了原始GAN网络的损失函数,并采用沃瑟斯坦(Wassertein)距离来优化GAN结构的损失函数,从根本上解决了原始GAN网络训练过程中梯度消失的问题。但由于WGAN网络使用的Wassertein距离需要满足Lipschitz连续性限制条件,采用了权重裁剪的方式,这会导致模型建模能力弱化,容易出现梯度消失以及梯度爆炸问题。改进WGAN-GP[19]通过梯度惩罚的方式改善了WGAN网络的训练稳定性,避免了梯度消失和爆炸问题,并提高了模型的建模能力,使得生成器可以更好地学习真实数据分布的特征。
3. 实验结果
3.1. 生成实验
本文使用数据集为LIDC-IDRI (The Lung Image Database Consortium)公开数据集[20],选取了其中300例Dicom格式的病例,并经过预处理后得到3050张256 × 256格式大小的肺结节影像数据,其中2729张作为训练数据集,321张作为测试数据集,LIDC数据集中原始肺结节图像如图3所示。训练前统一设置每次训练输入肺结节数据数量(Batchsize)为16张,训练轮数(Epoch)为500轮,随后将肺结节影像数据分别输入DCGAN和WGAN-GP网络进行训练。训练完成后,综合评估生成器损失(G_Loss)与鉴别器损失(D_Loss),保存最佳生成器网络的模型文件。DCGAN网络与WGAN-GP网络生成肺结节数据图像分别如图4、图5所示。
Figure 3.Original lung nodules images from the LIDC dataset
图3.LIDC数据集原始肺结节图像
Figure 4.Lung nodules images generated by the DCGAN network
图4.DCGAN网络生成肺结节图像结果
Figure 5.Lung nodules images generated by the WGAN-GP network
图5.WGAN-GP网络生成肺结节图像结果
3.2. 实验评估方式
3.2.1. IS指标
IS (Inception Score)指标使用图像分类网络Inception V3 Network来评估GAN网络中生成器生成的图片的质量。主要是将模型生成的图片生成的图片输入到预训练的网络Inception V3 Network中,根据分类网络输出的概率分布来评估生成图像的质量。IS但由于输出的IS指标过分依赖于Inception V3 Network,而Inception V3 Network是根据ImageNet数据集训练的,如果评价的数据集与训练分类网络的数据集相差过大时,可能不足以全面评估生成图片的质量,所以我们采用多种指标方式综合评估GAN网络中生成器的质量。计算IS指标的公式如下所示:
(1)
3.2.2. FID指标
与IS指标性相比,FID (Fréchet Inception Distance)[21]指标通过比较真实图像分布和生成图像分布之间的距离来综合评估生成图像的质量。同样是根据分类网络Inception V3 Network计算,但测试FID指标时将会同时输入真实图像和生成图像到分类网络中,再从中提取并计算真实图像的分布以及生成对抗网络生成图像分布之间的距离,其中距离越小代表着生成器生成的图像越接近于真实图像的分布,代表着生成的图像质量越高,因此FID越小越好。我们使用式(2)计算图像数据的FID值。
(2)
3.3. 实验评估结果
使用训练好的生成器模型输出生成的肺结节数据图像,为了保证结果的公平性,DCGAN网络与WGAN-GP网络生成的肺结节影像数量都为321张,与测试的真实图像数据集保持一致。我们首先使用IS与FID指标对生成的图像进行评估,结果如表1所示。接下来,使用SSIM (Structural Similarity Index)和PSNR (Peak Signal-to-Noise Ratio)指标来评估生成图像的质量以及与原始图像相似性。结果如表2所示。
Table 1.Comparison of IS and FID Values for lung nodules images generated by different models
表1.不同模型的生成的肺结节图像的IS和FID均值对比
模型 |
MIS |
MFID |
DCGAN |
1.57 |
144.41 |
WGAN-GP |
1.74 |
137.85 |
Table 2.Comparison of mean SSIM and PSNR values for lung nodules images generated by different models compared to real images
表2.不同模型生成肺结节图像与真实图像的SSIM和PSNR均值对比
模型 |
MSSIM |
MPSNR |
DCGAN |
0.40 |
30.03 |
WGAN-GP |
0.44 |
30.24 |
3.4. 实验结果分析
从表1可以得出,WGAN-GP网络在生成肺结节图像的四个评估指标中均表现优于DCGAN网络。从IS和FID指标的角度来看,WGAN-GP网络相较于DCGAN网络表现更优。WGAN-GP网络的IS均值为1.74,高于DCGAN网络的1.57。而FID均值为137.85,低于DCGAN网络的144.41。这表明WGAN-GP网络生成的图像在质量和多样性方面均优于DCGAN网络,且更接近于真实图像的分布。从而表明其生成的图像质量更高。
SSIM评估了生成的图像与真实图像之间的结构相似性,而PSNR评估了信号与噪声之间的比例。从SSIM和PSNR指标来看,WGAN-GP网络在SSIM和PSNR上也表现更好。WGAN-GP网络的MSSIM为0.44,高于DCGAN网络的0.40,而MPSNR为30.24,略高于DCGAN网络的30.03。这表明WGAN-GP网络生成的图像在结构相似性和信噪比方面都更接近于真实图像,具有更高的质量和清晰度,其中包含更多的细节和复杂性。
综合来看,WGAN-GP网络相较于DCGAN网络在生成肺结节影像方面表现出更好的性能。其引入的梯度惩罚机制有效提高了模型的训练稳定性,从而生成了更接近真实数据分布的高质量图像。
4. 结语
本研究基于生成对抗网络(GAN)技术,针对医疗影像中数据不足的问题,设计并实现了一种基于改进生成对抗网络结构的肺结节数据增扩方法。采用了DCGAN和WGAN-GP两种网络结构,并在LIDC-IDRI公开数据集上进行了实验验证。实验结果表明,使用生成对抗网络能够生成质量较高的肺结节影像数据,并且在采用WGAN-GP网络相较于DCGAN网络在生成肺结节影像方面表现出更好的性能。生成对抗网络技术在解决医疗影像数据不足问题方面具有比较好的应用前景。今后可以进一步优化模型结构,以提高生成图像的质量和多样性。
基金项目
国家级大学生创新创业训练项目(202311058020)。
NOTES
*通讯作者。