深度学习技术已被广泛应用在肝脏与肿瘤的分割任务中。但是,现有的3D网络模型大都忽略了医学图像横断面的像素距离过大的问题,直接使用3D卷积操作难以学习到准确的三维空间信息。此外,肿瘤形状大小高度可变的特点使得分割肿瘤更具挑战性。针对第一个问题,本文提出改进后的2.5D ResNet34对肝脏和肿瘤特征进行编码,提高模型对三维空间信息的建模能力。同时,利用DSC损失函数来提高模型对整体结构的分割能力。针对第二个问题,本文提出尺度注意力感知模块,通过建模不同尺度特征下的局部和全局三维空间信息,以有效地整合低级上下文信息和高级区域语义信息,从而实现精准的肝脏和肿瘤分割。本文所提出的方法在Liver Tumor Segmentation (LiTS)数据集上测试了肝脏与肿瘤的分割性能,其中肝脏分割的DSC为96.4%,肿瘤分割的DSC为72.3%,并与近三年的模型相比,本文提出的方法在肝脏和肿瘤分割中表现最好。 Deep learning technology has been widely used in the segmentation task of liver and tumor. However, the existing 3D network models mostly ignore the problem of large pixel distances across medical images, and it is difficult to learn accurate three-dimensional spatial information directly using 3D convolution operations. In addition, the highly variable shape and size of tumors make segmenting tumors more challenging. Aiming at the first problem, this paper proposes an improved 2.5D ResNet34 to encode liver and tumor features, and improve the modeling ability to model three-dimensional spatial information. At the same time, the DSC loss function is utilized to improve the modeling ability to segment the overall structure. In response to the second problem, this paper proposes a scale attention awareness module, which can effectively integrate low-level context information and high-level regional semantic information by modeling local and global three-dimensional spatial information under different scale features, thereby achieving accurate segmentation of liver and tumor. The proposed method tested the performance on the Liver Tumor Segmentation (LiTS) dataset. The DSC of liver segmentation was 96.4%, and the DSC of tumor segmentation was 72.3%. Moreover, compared with the methods in the past three years, the proposed method performs best in liver and tumor segmentation.
深度学习技术已被广泛应用在肝脏与肿瘤的分割任务中。但是,现有的3D网络模型大都忽略了医学图像横断面的像素距离过大的问题,直接使用3D卷积操作难以学习到准确的三维空间信息。此外,肿瘤形状大小高度可变的特点使得分割肿瘤更具挑战性。针对第一个问题,本文提出改进后的2.5D ResNet34对肝脏和肿瘤特征进行编码,提高模型对三维空间信息的建模能力。同时,利用DSC损失函数来提高模型对整体结构的分割能力。针对第二个问题,本文提出尺度注意力感知模块,通过建模不同尺度特征下的局部和全局三维空间信息,以有效地整合低级上下文信息和高级区域语义信息,从而实现精准的肝脏和肿瘤分割。本文所提出的方法在Liver Tumor Segmentation (LiTS)数据集上测试了肝脏与肿瘤的分割性能,其中肝脏分割的DSC为96.4%,肿瘤分割的DSC为72.3%,并与近三年的模型相比,本文提出的方法在肝脏和肿瘤分割中表现最好。
2.5D网络,尺度注意力感知,语义分割,CT图像
Jiajian Li, Guoheng Huang
School of Computer, Guangdong University of Technology, Guangzhou Guangdong
Received: Dec. 25th, 2021; accepted: Jan. 21st, 2022; published: Jan. 28th, 2022
Deep learning technology has been widely used in the segmentation task of liver and tumor. However, the existing 3D network models mostly ignore the problem of large pixel distances across medical images, and it is difficult to learn accurate three-dimensional spatial information directly using 3D convolution operations. In addition, the highly variable shape and size of tumors make segmenting tumors more challenging. Aiming at the first problem, this paper proposes an improved 2.5D ResNet34 to encode liver and tumor features, and improve the modeling ability to model three-dimensional spatial information. At the same time, the DSC loss function is utilized to improve the modeling ability to segment the overall structure. In response to the second problem, this paper proposes a scale attention awareness module, which can effectively integrate low-level context information and high-level regional semantic information by modeling local and global three-dimensional spatial information under different scale features, thereby achieving accurate segmentation of liver and tumor. The proposed method tested the performance on the Liver Tumor Segmentation (LiTS) dataset. The DSC of liver segmentation was 96.4%, and the DSC of tumor segmentation was 72.3%. Moreover, compared with the methods in the past three years, the proposed method performs best in liver and tumor segmentation.
Keywords:2.5D Network, Scale Attention Awareness, Semantic Segmentation, CT Image
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
肝脏是构成人体生命所需的重要器官,肝癌是世界上最常见的癌症之一。根据世界卫生组织发布的最新数据显示,每年都会有大量的病人因为肝癌疾病而死亡 [
在CT图像中,肝脏与周围器官及组织之间的对比度非常低,从CT中自动、鲁棒地分割肝脏与肿瘤是一项非常具有挑战性的任务。而与肝脏分割相比,肿瘤具有形状和大小高度可变的特点,因此,肿瘤分割被认为是一项更具挑战性的任务。
近年来,深度学习技术已被广泛应用在医学图像的分割任务中,越来越多的研究者在肝脏与肿瘤分割任务中使用了深度学习方法 [
总的来说,以上方法大多都是基于UNet及ResNet的残差连接来实现肝脏与肿瘤的分割,证明了ResNet具有较强的特征提取能力。受此启示,本文直接采用ResNet作为特征提取网络。但是,上述方法中都忽视了三维医学图像的像素距离信息。如果CT图像的横断面的像素距离过大,直接采用3D卷积操作反而会带来很多干扰信息 [
图1. 3D医学图像横断面间像素距离示例图
本文提出一种基于2.5D网络和尺度注意力感知模块的肝脏与肿瘤分割模型,该模型由三部分组成:1) 融合单张切片特征和相邻切片特征的2.5D ResNet34作为编码器;2) 尺度注意力感知模块;3) 多层解码单元组成的解码器,如图2所示。其中,与常用的ResNet34不同的是,本文在ResNet34的前两层改用2.5D卷积操作,在后三层采用正常的3D卷积操作,以缓解三维医学图像普遍存在的像素距离过大的问题。经过编码部分对输入图像进行编码后,产生四个不同尺度的特征向量 F s , s = { 1 , 2 , 3 , 4 } 。然后,尺度注意力感知模块(SAA)用于捕获 F s 的注意力特征,并通过将高层级与底层级的注意力特征融合,形成具有尺度感知的注意力特征 F s A 。SAA不仅可以缓解由于下采样操作导致肿瘤边界难以精准分割的问题,还能解决由于肿瘤形状高度可变而导致的误分割问题。解码器旨在融合不同层级的 F s A ,最终输出与输入图像大小相同的分割概率图。
图2. 模型整体结构
编码器使用ResNet34作为骨干网络,它具有较好的特征提取能力且参数量适中,非常适用于3D图像的语义分割。然而,直接将3D图像输入到3DResNet34中进行训练是不合理的。现有的神经网络无法学习到像素间的距离信息,如果像素距离过大,直接执行3D卷积操作反而难以学习三维的空间信息。
为缓解这一问题,提出改进后的2.5D ResNet34作为编码器,使编码器能在相邻切片像素距离过大的条件下,仍然能同时有效地学习单张切片特征和相邻切片特征。编码器的具体细节如图3所示,为有效提取单张切片的特征,将原3 × 3 × 3卷积核替换为1 × 3 × 3卷积核,称为2.5D方法。相应地,padding设为(0, 1, 1)。一般地,网络的浅层使用2.5D方法,网络的深层使用3D方法能更好地平衡模型对单张切片特征和相邻切片特征的学习能力。因此,提议的方法只在前两层使用2.5D方法,其他层使用3D方法。
图3. 2.5D基础模块和3D基础模块结构图
为了学习有效上下文信息,区域语义信息和边界信息在内的从粗到细的特征,本文提出了尺度注意力感知模块(SAA)。SAA的目标是探索不同尺度特征下的局部和全局三维空间信息。构造SAA的灵感来自RFB [
图4展示了尺度注意力感知模块的所有细节。假设编码器生成的多尺度特征为 F s , s = { 1 , 2 , 3 , 4 } ,我们将不同尺度特征下的视觉感知过程表述如下:
F s T = { C o n v 3 ( F s + U p ( F s + 1 A ) ) , s < 4 C o n v 3 ( F s ) , s = 4 (1)
C r = σ ( C o n v 3 ( F s T , r ) ) ⋅ F s T (2)
F s A = C o n v 1 ( C 1 , C 3 , C 5 , C 7 ) (3)
其中, F s T 表示获得的中间特征, U p ( ⋅ ) 表示上采样操作, σ ( ⋅ ) 表示softmax激活操作, C r 表示单尺度的注意力特征, F s A 表示第s个尺度注意力特征。r表示空洞卷积率, r = { 1 , 3 , 5 , 7 } 。
图4. 尺度注意力感知模块结构图
图5. 解码模块结构图
解码模块主要由四层解码单元组成,如图5所示。每一层解码单元都是对高层级的尺度注意力感知特征进行上采样,得到与上一层级特征大小一致的新特征,然后将这两个大小一致的特征进行拼接融合,以弥补由于下采样操作中丢失的语义信息,从而增强对边缘细节的分割。最后,在最后一层解码单元中输出的特征向量被输入到softmax激活函数中,将特征向量映射成概率值,对应图像中每一个像素点,并选择概率最大的类别作为预测结果。
交叉熵损失函数是目前语义分割任务中使用最广泛的损失函数。但是,在肝脏与肿瘤分割任务中,将面临着类别不平衡问题,直接使用交叉熵损失函数会使模型倾向拟合类别数量多的样本。目前,加权的交叉熵能有效的缓解这类问题,其主要思想是对每个类别设置一个权重系数,对数量少的类别加大惩罚,公式如下所示:
L W C E = − 1 ∑ c = 1 3 ω c N y = c ∑ i = 1 N ∑ c = 1 3 ω i c y i log p i c (4)
其中,N表示图像的所有像素点的数量,c表示类别(背景,肝脏和肿瘤), ω 表示权重, y i 表示第i个像素点的真实值, p i c 表示第i个像素点被预测为类别c的概率值。
对于语义分割任务,加权交叉熵只是在像素级计算损失值,忽视了整体结构的损失值。因此,引入了Dice相似性系数(Dice similarity coefficient, DSC)作为辅助损失函数。DSC用于度量两个集合的相似性,是评估分割精度最常用的度量指标,公式如下所示:
D S C = 2 y p y + p (5)
其中y表示真实值,p表示预测概率值。DSC损失函数可以定义为:
L D S C = ∑ c = 1 3 ( 1 − D S C ) (6)
最后,我们使用联合损失函数用于肝脏与肿瘤分割,能够缓解类别不平衡的问题的同时,强调整体结构的损失值。公式如下所示:
L = L W C E + α L D S C (7)
其中, α 为DSC损失函数的调整权重系数。
数据集是从国际医学图像计算和计算机辅助干预协会(Medical Image Computing and Computer Assisted Intervention Society, MICCAI)在2017年发起的肝脏肿瘤分割竞赛中获得的(Liver Tumor Segmentation, LiTS) [
与自然图像相比,CT扫描图像中存储的像数值单位为霍斯菲耳德单位(Hounsfield unit, Hu),像素值范围在[−3000, 3000]之间。在本实验中,通过分析CT图像和肝脏区域的窗宽和窗位值得到[−200, 250]内为最合适的强度值。所以,把大于250 Hu的像素设为250,小于−200 Hu的像素设为−200,从而更清晰观察到需要分割的肝脏区域 [
在数据集划分方面,本文把130个病例按照8:2的比例随机划分为训练集和验证集,剩下的70例作为测试集。此外,为防止模型过拟合,本文通过随机裁剪的方式对原图进行裁剪,裁剪后的大小为32 × 256 × 256,同时进行上下和左右翻转来达到数据扩充的目的。
图6. CT图像处理前后对比图
为了评估模型在肝脏与肿瘤分割的有效性,本文采用以下三种评价指标。
1) Dice相似度系数(Dice similarity coefficient, DSC)表示预测结果p与真实结果y之间的重叠率,取值范围0~1,0表示预测结果与真实结果发生严重偏离,1表示预测结果与真实结果完全重合。其公式如公式5所示。
2) VOE (volumetric overlap error)表示错误率,单位为%,0%表示完全分割,100%表示预测结果与真实结果完全不重叠。其公式为:
V O E = 1 − y p y + p − y p (8)
3) ASD (average symmetric surface distance)表示预测结果与真实结果之间对称位置的平均表面距离,单位是mm,其中0 mm表示完美分割。其公式为:
A S D = 1 S ( y ) + S ( p ) × ( ∑ s y ∈ S ( y ) d ( s y , S ( p ) ) ∑ s p ∈ S ( p ) d ( s p , S ( y ) ) ) (9)
其中, S ( x ) 代表集合x中的表面体素, d ( v , S ( x ) ) 表示任意体素v到 S ( x ) 的最短距离。
在参数设置上,初始学习率为0.001,同时利用权重衰减为1e−5的自适应矩估计优化器来实现梯度下降。此外,总训练轮次为200 epoch,每50个epoch将学习率降低10%,并在每个epoch之后在验证集上评估性能。本文所有的实验都是在NVIDIA GTX 3090 GPU上进行的。
为验证本文提出的不同组件的有效性,本实验采用相同的参数和数据集,通过逐一添加组件进行对比,肝脏与肿瘤分割在测试集上的实验结果分别如表1和表2所示。
模型 | DSC (%) | VOE (%) | ASD (mm) |
---|---|---|---|
2D ResNet34 + LWCE | 92.2 | 13.7 | 6.6 |
3D ResNet34 + LWCE | 94.1 | 10.8 | 5.2 |
3D ResNet34 + LWCE + LDSC | 94.9 | 9.5 | 2.9 |
2.5D ResNet34 + LWCE + LDSC | 95.7 | 8.3 | 1.2 |
2.5D ResNet34 + LWCE + LDSC + SAA | 96.4 | 7.3 | 1.1 |
表1. 不同组件在肝脏分割的结果对比
模型 | DSC (%) | VOE (%) | ASD (mm) |
---|---|---|---|
2D ResNet34 + LWCE | 62.1 | 55.4 | 3.6 |
3D ResNet34 + LWCE | 68.4 | 37.9 | 3.1 |
3D ResNet34 + LWCE + LWCE | 70.2 | 34.2 | 2.2 |
2.5D ResNet34 + LWCE + LWCE | 71.8 | 34.6 | 1.5 |
2.5D ResNet34 + LWCE + LWCE + SAA | 72.3 | 33.2 | 1.3 |
表2. 不同组件在肿瘤分割的结果对比
由表1和表2数据可知,相比2D ResNet34,3D ResNet34由于学习到三维的空间信息,因此有助于肝脏和肿瘤的分割,肝脏的DSC提升1.9%,肿瘤的DSC提升63%。进一步地,通过将加权交叉熵损失函数(LWCE)和DSC损失函数(LDSC)结合形成混合损失函数,在肝脏和肿瘤分割的DSC上能得到进一步的提升,证明这种组合对于肝脏和肿瘤分割任务能发挥更好的效果。2.5D ResNet34方法在优化了三维空间信息后,肝脏分割的DSC能提高至95.7%,ASD进一步优化至1.2 mm。虽然3D ResNet34同样具有三维空间信息,但由于图像横截面的像素距离大,过多的使用三维空间信息反而会带来差的效果,2.5D ResNet34方法同样被证明在肿瘤分割中有效,相比3D ResNet34,DSC提升1.6%。最后,通过嵌入尺度注意力感知模块(SAA),在肝脏分割中,DSC被进一步提升至96.4%,在肿瘤分割中,DSC被进一步提升至72.3%,证明了本文提出的方法在肝脏和肿瘤分割中的有效性。
图7和图8分别展示了各种组件对肝脏和肿瘤的推理结果,其中,绿色区域表示正确分割肝脏/肿瘤,红色区域表示该区域是肝脏/肿瘤,但模型预测为背景,蓝色区域表示该区域为背景,但模型预测为肝脏/肿瘤。由图可知,2D ResNet34由于没有利用三维的空间信息,无论是肝脏分割或者肿瘤分割,都有较多的漏分割的区域。相反,由于医学图像在横断面的像素距离较大,直接使用3D卷积操作导致出现较多的误分割区域。通过使用2.5D ResNet34能在一定程度上缓解这个问题。最后结合尺度感知注意力模块,本文最终的方法在肝脏分割中的效果达到最好,其漏分割和误分割的区域非常少,这也是这个方法的DSC最高,VOE和ASD最低的直接证明。
图7. 各种方法对肝脏的推理结果
图8. 各种方法对肿瘤的推理结果
为进一步验证提出的方法的有效性,本文在LiTS的70例测试集上,比较了过去三年提出的肝脏与肿瘤分割方法以及一些主流的分割算法的DSC值。
UNet 2D:该模型是最先应用在医学图像的2D分割方法。其特点主要是在解码阶段,融合编码阶段的特征来弥补丢失的特性信息,被证明在医学图像分割中非常有效。
UNet 3D:由于UNet 2D不能充分学习三维的空间信息,因此衍生出3D版本。相比UNet 2D,UNet 3D能通过3D卷积操作来学习三维的空间信息,实现更准确的分割。
VNet:该模型主要是引入了残差连接弥补下采样的特征丢失语义信息的问题,并采用卷积替代上采样和平均池化,以保留更过细节信息。
DeeplabV3 + 3D:在空洞卷积和空间金字塔模块(ASPP)的基础上,将深度可分卷积应用在ASPP和解码模块中,提高网络的训练速度。
RA-UNet:该模型是一个三阶段分割模型,首先用RA-UNet 2D对肝脏进行定位,然后用RA-UNet 3D对定位的肝脏进行精细分割,最后用RA-UNet 3D从肝脏的感兴趣区域中分割肿瘤。
H-DenseUNet:该模型主要是在UNet的基础上加入了密集连接块来获取浅层的特征,同时通过融合2D DenseUNet和3D DenseUNet的特征进行精细的分割。
上述方法在LiTS的70例测试集的分割结果如表3所示。
模型 | 肝脏DSC (%) | 肿瘤DSC (%) |
---|---|---|
UNet 2D | 91.1 | 49.8 |
UNet 3D | 93.2 | 52.5 |
VNet 3D | 94.9 | 62.4 |
DeeplabV3 + 3D | 95.7 | 66.6 |
RA-UNet 3D | 96.1 | 59.5 |
H-DenseUNet 3D | 96.1 | 72.2 |
Ours | 96.4 | 72.3 |
表3. 不同方法在肝脏与肿瘤分割的结果对比
通过对比实验得出,本文提出的方法在肝脏和肿瘤分割中性能表现良好。其中,RA-UNet是通过使用两个模型来进行由粗到细的肝脏与肿瘤分割,而本文提出的是端到端的单模型分割方法。虽然多模型融合能有一定的DSC提升,但模型更复杂,且需要更多的推理时间。与RA-UNet相比,本文提出的方法在肝脏分割中,DSC提高了0.3%。在肿瘤分割中,DSC达到72.3%。同样地,H-DenseUNet的结果也是通过多个模型融合得到的,但本文的方法结果仍然比H-DenseUNet的更优,这显示了本文的方法在临床实践中具有更高效的应用潜能。
在肝脏与肿瘤分割任务中,针对三维医学图像的横断面间像素距离大的问题,本文基于2D和3D ResNet34,提出利用改进后的2.5D ResNet34对肝脏和肿瘤特征进行编码,提高模型对三维空间信息的建模能力。同时,利用DSC损失函数来提高模型对整体结构的分割能力。此外,针对肿瘤形状大小高度可变的问题,本文设计了尺度注意力感知模块来建模不同尺度特征下的局部和全局三维空间信息,以有效地整合低级上下文信息和高级区域语义信息。同时,在与其他先进的方法对比中,证明了本文提出的方法的有效性。在未来的工作中,将注重研究小目标的语义分割算法,以进一步提高肿瘤的分割性能。
李家健,黄国恒. 基于2.5D网络和尺度注意力感知的肝脏与肿瘤分割A 2.5D Network and Scale Attention Awareness for Liver and Tumor Segmentation[J]. 计算机科学与应用, 2022, 12(01): 199-210. https://doi.org/10.12677/CSA.2022.121021
https://doi.org/10.1007/978-3-319-46723-8_18
https://arxiv.org/abs/1704.02703
https://doi.org/10.1109/TPAMI.2016.2572683
https://doi.org/10.1007/978-3-319-24574-4_28
https://doi.org/10.1109/3DV.2016.79
https://doi.org/10.1109/CVPR.2016.90
https://arxiv.org/abs/1704.07239
https://arxiv.org/abs/1811.01328
https://doi.org/10.1007/978-3-030-01234-2_49
https://arxiv.org/abs/1706.05587
https://doi.org/10.1007/978-3-030-59719-1_50
https://doi.org/10.1109/TMI.2009.2013851
https://doi.org/10.1007/978-3-030-01252-6_24
https://arxiv.org/abs/1901.04056v1