1. 引言
核酸检测是大规模筛查新冠病毒感染的主要手段,但新冠肺炎的最终确诊还必须依据对患者肺部CT图像的准确判读。大多数新冠肺炎患者的肺部CT图像具有共同的特征,包括早期以磨玻璃影为主、晚期以实变影为主 [1],故专业医生可通过判读做出诊断。但实际上由于该类图像常存在病灶重叠、背景干扰且分辨率低,医生仅靠肉眼常难以正确判读;时间紧、任务重、专家少的严峻抗疫形势又会进一步增加人工判读因医生疲劳出现诊断错误的可能性。深度学习在医学图像自动分析等的研究、应用上均已展现成功 [2],故在实现新冠肺炎高效、准确诊断上也被寄予了厚望。图像语义分割则是其中最基础和重要的步骤。
本文主要研究基于深度学习的新冠肺炎肺部CT图像的图像语义分割,包括:1) 利用新冠肺炎患者肺部CT图像及其掩膜图(专家标注)构建数据集,并加以预分割。2) 实验比较U-Net、U-Net++、U-Net+ResNet101、DeepLabV3+的分割性能。3) 选用和改进其中性能较优的DeepLabV3+,包括引入卷积注意力模块、用深度可分离卷积替换常规卷积,以提高其获取注意力信息的能力和对信息进行去耦。通过实验和主、客观评价、对比,证明了该改进模型的可行性、先进性和有效性。
2. 数据集的准备
组合使用Kaggle COVID-19 CT图像分割竞赛、国家生物信息中心网站2019新冠病毒信息库提供的新冠肺炎患者肺部CT图像及其掩模图,本文建立了由1000张肺部CT图像及其四标签掩模图组成的基本数据集,其图像大小为512 × 512 × 3,格式为.jpg,掩模图大小为512 × 512,格式为.png。掩模图中标记的区域分别为:0-“肺部磨玻璃影”,1-“肺实变”,2-“肺部其他区域”,3-“背景”。获得基本数据集后,又从国家生物信息中心网站的肺部区域分割数据集中筛选出2500张肺部CT图像及对应两标签掩模图(肺部和背景)用以训练LungSeg-Net模型以实现对基本数据集中CT图像的预分割处理,分割预处理能够降低背景对实验的干扰、更好地检验、评价和比较模型、算法的性能。LungSeg-Net模型的结构见图1。
Figure 1. The structure diagram of LungSeg-Net
图1. LungSeg-Net模型结构图
LungSeg-Net结构类似于U-Net模型,模型结构承U型,模型左侧部分主要对图像进行下采样操作,使图片尺寸减小,并对特征信息进行提取,右侧部分进行上采样操作将图片恢复至原来的尺寸得到分割结果。模型中引入跳跃连接结构,以将高级特征与低级特征进行融合从而获得更丰富的语义信息。我们按训练集、验证集、测试集6:2:2的比例对LungSeg-Net进行实验,得出了较好的效果,因此可将其直接用于肺部CT图像的预分割中,分割预处理效果参见图2。
Figure 2. Partial results of segmentation preprocessing of CT concentrated images
图2. 将CT集中的图像进行分割预处理后的部分结果
为避免过拟合,又通过移动、旋转、缩放等方式将四标签的基本数据集扩增至5000张,并按6:2:2的比例分配训练集、验证集和测试集。
3. 基于改进DeepLabV3+网络的肺部CT分割算法
本文基于上述数据集,对U-Net、U-Net++、U-Net+ResNet101、DeepLabV3+等的分割性能进行了实验比较,从而选用其中较优者DeepLabV3+作为改进对象。DeepLabV3+的特点是以Xception网络 [3] 为主干网络,并引入了空洞空间金字塔池化结构。空洞卷积能增大感受野,提升该模型捕获上下文信息的能力 [4];改变其采样率,可获得多尺度的上下文信息 [5]。因该模型涉及通道融合操作,融合特征的卷积深度影响着其抽象程度及后续的特征学习。本文因此将图3所示的卷积注意力模块(Convolutional Block Attention Module, CBAM)引入融合操作,以得到更全面可靠的注意力信息 [6]。具体地说,见图4,通道注意力模块(Channel Attention Module, CAM)的输入F (H × W × C)经过全局最大池化和全局平均池化后得到的两个1 × 1 × C的特征图,通过共享神经网络后,再经过加和操作和sigmoid激活,得到通道注意力特征;空间注意力模块(Spatial Attention Module, SAM)的输入同样先经过全局平均池化和最大池化,再将所得两个特征图拼接,然后经过7 × 7卷积进行降维,最后经sigmoid激活生成空间注意力特征;CAM、SAM的输出相乘,作为CBAM的最终输出。
Figure 3. The structure diagram of CBAM
图3. CBAM结构图
Figure 4. The structure diagrams of CAM and SAM
图4. CAM与SAM结构
此外,为进行信息去耦,减少信息丢失 [7],本文将DeepLabV3+解码器中的常规卷积代之以深度可分离卷积,即在进行深度卷积时,一个卷积核对一个通道操作,之后通过逐点卷积将深度卷积的结果进行加权组合 [8]。改进后的DeepLabV3+模型结构参见图5。模型编码器部分通过ASPP块以对多尺度图像信息进行编码,而解码器模块通过一系列反卷积以及特征图拼接操作得出细化的分割结果。由于在特征图的通道拼接操作中引入了CBAM模块并在输出部分引入深度可分离卷积块,从而进一步提高了模型捕获特征信息的能力,有助于得到更加优秀的分割结果。
4. 实验及结果分析
实验基于Google Colaboratory进行,采用:TensorFlow:2.6.0;操作系统:Ubuntu 18.04.5;GPU:Tesla K80;显存12 GB;硬盘68 GB;Python:3.7;CUDA:11.2。首先对改进DeepLabV3+模型等进行了训练和验证。训练集和验证集的Loss、f-score曲线参见图6,从中可见DeepLabV3+训练到约40代已达收敛。
Figure 5. The structure diagram of improved DeepLabV3+
图5. 改进的DeepLabV3+模型
Figure 6. Loss and F-score curves, where the red line represents the training set and the blue line represents the verification set
图6. Loss和F-score变化曲线,其中红线代表训练集,蓝线代表验证集
之后对改进模型进行测试,并与DeepLabV3+、U-net、U-net++、U-net+ResNet101模型的预测结果进行了对比。U-net模型是医学分割领域具有代表性的分割模型,其基本思想是先通过卷积、池化操作实现特征提取,再通过反卷积操作将图像尺寸逐步还原。由于U-net模型在医学图像分割任务中表现出色,后来出现了许多基于U-net的改进模型。U-net++对不同深度的U-net模型进行集成并且改进了跳跃连接结构以解决U-net存在的模型最佳深度先验未知及拼接过程具有局限性的问题。U-net+ResNet101将U-net中主干网络替换成ResNet101以提高模型提取特征的能力。各模型预测的部分典型实例见图7。其中黑色区域为背景,红色区域为正常的肺部,蓝色区域为肺实变病灶,绿色部分为肺部磨玻璃影病灶。
由图7可知,与其它模型相比,DeepLabV3+识别肺部和病灶区域的能力更强,但在两个病灶边缘处的预测结果不够理想,即过于平滑,细节有所丢失;本文提出的改进DeepLabV3+,则较好地预测了病灶的细节特征,反映其在处理复杂图像时鲁棒性更好。
Figure 7. Typical examples of prediction results of each model. The image in the first line is the original image of the test set, the second line is the correct label, and the images in the third to seventh lines are the prediction results of each model
图7. 各模型预测结果的典型实例。其中,第1行为测试集原图,第2行为正确的标签,第3行至第7行的图像为各模型的预测结果
在客观评价方面,本文采用MIoU (Mean Intersection over Union,均交并比)和MPA (Mean Pixel Accuracy,均像素准确率)作为评价指标。MIoU是图像分割的标准度量指标,评价的是真实值和预测值的交集和并集之比,MIoU越大说明分割效果越好。MPA评价的则是图像中每个像素被分类正确的概率,MPA越大则表示模型越精确。计算公式如式(1)、(2)所示。
(1)
(2)
式中,k表示类别数、Pii、Pij依次表示预测正确、错误的像素数。相应的各模型预测性能对比参见表1、表2。
Table 1. IoU performance of each model
表1. 各模型的IoU性能
Table 2. PA performance of each model
表2. 各模型的PA性能
由表1、表2可见,各模型对背景和肺部区域的分割效果均较理想,但DeepLabV3+对病灶的分割性能明显好于U-net类模型,而改进DeepLabV3+模型的分割性能进一步提升,证明CBAM模块和深度可分离卷积确实能提升模型的性能,得到更精确的分割结果。
5. 结论
本文针对COVID-19肺部CT图像的语义分割,提出了改进的DeepLabV3+模型,并通过实验对比对验证了其先进性。今后将进一步研究新冠肺炎CT图像的自动分析。