脑肿瘤的语义分割是一项基本的医学图像分析任务,可以协助临床医生诊断患者,并持续关注病灶部分的变化情况。得益于深度学习的发展,医学图像自动分割取得了很大的进步。然而,现有的深度学习分割模型依赖于庞大的训练数据支撑,在临床上,医学数据通常数据量较小。为了改善这些问题,本文提出了一种新的深度医学图像分割框架,称为Residual Mulitse Transunet (RM Transunet),以提高小样本医学图像的语义分割质量。本文提出的RM Transunet遵循了Transunet的设计,融合了CNN和Transformer,并引入了Residual Block和MuilSE,有效地在不同尺度的特征之间建立全局依赖关系,以便充分利用这些获得的多尺度特征表示。针对医学图像分割的实验证明了RM Transunet的有效性,并表明我们的方法明显优于当下的方法。本研究的贡献不仅在于提供了一种新的思路来解决医学图像领域小样本数据的挑战,同时也为临床决策和治疗优化提供了有益的参考。 Semantic segmentation of brain tumors is a basic medical image analysis task that can assist clinicians in diagnosing patients and continuously paying attention to changes in the lesions. Thanks to the development of deep learning, great progress has been made in automatic segmentation of medical images. However, existing deep learning segmentation models rely on the support of huge training data. In clinical practice, medical data usually have a small amount of data. To improve these problems, this paper proposes a new deep medical image segmentation framework called residual mulitse transunet (RM Transunet) to improve the semantic segmentation quality of small sample medical images. The RM Transunet proposed in this article follows the design of Transunet, integrates CNN and Transformer, and introduces Residual Block and MuilSE to effectively establish global dependencies between features at different scales in order to make full use of these obtained multi-scale feature representations. Experiments on medical image segmentation demonstrate the effectiveness of RM Transunet and show that our method significantly outperforms current methods. The contribution of this study is not only to provide a new idea to solve the challenge of small sample data in the field of medical images, but also to provide a useful reference for clinical decision-making and treatment optimization.
脑肿瘤的语义分割是一项基本的医学图像分析任务,可以协助临床医生诊断患者,并持续关注病灶部分的变化情况。得益于深度学习的发展,医学图像自动分割取得了很大的进步。然而,现有的深度学习分割模型依赖于庞大的训练数据支撑,在临床上,医学数据通常数据量较小。为了改善这些问题,本文提出了一种新的深度医学图像分割框架,称为Residual Mulitse Transunet (RM Transunet),以提高小样本医学图像的语义分割质量。本文提出的RM Transunet遵循了Transunet的设计,融合了CNN和Transformer,并引入了Residual Block和MuilSE,有效地在不同尺度的特征之间建立全局依赖关系,以便充分利用这些获得的多尺度特征表示。针对医学图像分割的实验证明了RM Transunet的有效性,并表明我们的方法明显优于当下的方法。本研究的贡献不仅在于提供了一种新的思路来解决医学图像领域小样本数据的挑战,同时也为临床决策和治疗优化提供了有益的参考。
深度学习,脑肿瘤分割,肺癌脑转移瘤,小样本数据
Yuting Yang*, Hancan Zhu#
School of Mathematical Information, Shaoxing University of Arts and Sciences, Shaoxing Zhejiang
Received: Mar. 26th, 2024; accepted: Apr. 30th, 2024; published: Apr. 30th, 2024
Semantic segmentation of brain tumors is a basic medical image analysis task that can assist clinicians in diagnosing patients and continuously paying attention to changes in the lesions. Thanks to the development of deep learning, great progress has been made in automatic segmentation of medical images. However, existing deep learning segmentation models rely on the support of huge training data. In clinical practice, medical data usually have a small amount of data. To improve these problems, this paper proposes a new deep medical image segmentation framework called residual mulitse transunet (RM Transunet) to improve the semantic segmentation quality of small sample medical images. The RM Transunet proposed in this article follows the design of Transunet, integrates CNN and Transformer, and introduces Residual Block and MuilSE to effectively establish global dependencies between features at different scales in order to make full use of these obtained multi-scale feature representations. Experiments on medical image segmentation demonstrate the effectiveness of RM Transunet and show that our method significantly outperforms current methods. The contribution of this study is not only to provide a new idea to solve the challenge of small sample data in the field of medical images, but also to provide a useful reference for clinical decision-making and treatment optimization.
Keywords:Deep Learning, Brain Tumor Segmentation, Lung Cancer Brain Metastases, Small Sample Data
Copyright © 2024 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
脑肿瘤分为原发性和继发性肿瘤。原发性脑肿瘤起源于脑细胞,而继发性肿瘤是指从其他器官转移到大脑 [
随着医学成像设备的快速发展和普及,成像技术在临床中得到了广泛应用。医学图像在诊断和治疗过程中起着至关重要的作用,而医学图像处理和分析是一个复杂而关键的步骤。医学图像分割能够从特定组织图像中提取关键信息,实现医学图像信息可视化。分割后的图像被提供给医生用于组织体积的定量分析、诊断、病理改变组织的定位、解剖结构的描绘、治疗计划等不同任务。因此,准确且高效的分割脑肿瘤区域在临床上有重要意义。基于现代科技的发展,深度学习算法在计算机视觉领域取得了显著成就。深度学习算法所具备的自动、高效等优点,已被证实在医学图像的分割领域同样具有较高的准确性。通过算法对医学图像中具有特殊意义的部分进行特征提取,获取相关信息并进行自动化地精准分割,可以为临床诊断和病理研究提供可靠的依据,帮助医生做出更准确的诊断。
尽管深度学习分割方法在许多领域都取得了显著进展,但在医学图像处理领域还存在一定挑战。首先,现有的深度学习模型通常需要大量的标注数据进行训练,而在医学图像等领域,获取大规模标注数据是一项耗时且费力的任务当数据集非常小时,深度学习算法的性能会受到限制,传统的机器学习算法和深度学习算法通常难以发挥出其应有的效果。其次,医学图像病理信息复杂且无规律可循,对于不同的病理数据特征各异,现有的视觉领域的深度学习模型通常在训练数据上表现出色,但泛化能力有限,预测效果可能表现不佳。此外,深度学习模型通常需要大量的计算资源进行训练,这对于许多实际应用来说是一个挑战,尤其是在一些复杂任务和深层网络结构中。因此,如何在小样本数据情况下准确分割出肺癌脑转移瘤区域,成为了医学图像分割领域中的一个难题。
针对上述问题,本文提出了一种针对小样本数据的肺癌脑转移瘤分割算法,结合CNN和transformer的优点,将Residual Block引入编码器,在下采样期间构建远程依赖关系和全局上下文连接,在跳过链接部分利用多尺度的自我注意机制有效地在不同尺度的特征之间建立全局依赖关系,在上采样过程中充分挖掘数据信息,最后将融合的特征逐渐恢复到与像素级预测的输入图像相同的分辨率。得益于这些改进,我们高效利用了小样本数据。我们评估了RM Transunet在小样本数据上的分割性能,并对比了当下热门的分割网络结构,实验结果证明了本文所提出的方法相较于传统的深度学习方法,在准确性方面有显著的提高。
图像分割是指将图像中感兴趣的结构或区域进行像素级别的标记,以实现精确的定位和量化分析 [
为了解决这个问题,Google Brain的研究人员提出了Transformer [
最近的研究表明,将Transformer模块结合到U形全卷积结构中,可以充分发挥两种结构各自的优势。例如,可以先使用CNN进行特征提取,然后利用Transformer进行全局关系建模或上下文理解,或者将两者结合起来以满足特定任务的需求,同时学习图像的局部和全局特征 [
注意力机制作为一种常用的深度学习技术,其主要目的是通过在模型中引入可学习的注意力权重,使模型能够动态地关注输入数据中的重要部分,从而提高模型的性能。根据其在模型中的应用方式和设计特点,注意力机制可以分为多种不同类型。其中,Transformer中的自注意力机制 [
肺癌脑转移瘤数据:我们利用浙江省人民医院收集的100例肺癌脑转移瘤的病例对所提出的方法进行验证。在专业医生的协助下,我们对收集到的数据进行了肿瘤区域的分割,并将其作为后续实验的金标准。
图1. 肺癌脑转移瘤视图
由于MRI图像中还包含非大脑区域,如硬脑膜、颅骨、脑膜和头皮等。这些非大脑区域的存在通常会降低模型在分类任务中的性能。因此,我们首先对所有数据进行了颅骨剥离,并进行了归一化处理、偏置场校正和图像配准等预处理步骤。通过这些预处理步骤,我们获得了更规范、更清晰的图像数据。处理后的鳞癌脑转移瘤和腺癌脑转移瘤的可视化如图1所示。
RM Transunet的网络结构图如图2所示,主要包括编码器,解码器和加入了多尺度注意力机制的跳跃连接三部分。
图2. RM Transunet网络结构图
编码器:编码器的主要任务是对输入图像进行特征提取和压缩,并且保留重要的特征信息。编码器部分主要经历CNN和Transformer两个阶段。对于输入图像,首先经过3个次下采样,通过一系列卷积层和池化层逐渐改变图像的空间尺寸和特征通道数。每次下采样过程将分辨率减半,并在每个中间阶段将通道维度加倍。对于给定的大小为H × W × C的输入,输出特征被重塑为H/2i× W/2i× D / 2i( i ∈ { 1 , 2 , 3 } )的大小。在该过程中,每次进行下采样后的结果都要经过一个Resblock,并将Resblock的输出与最后一次下采样的结果相加,经过线性映射后输入第二阶段,Resblock部分的具体操作如图3所示。在第二阶段,我们使用了12层Transformer结构对第一阶段提取的特征进行进一步提取,以便细化特征并建立全局联系。在编码器部分我们进行了这些层的组合,使网络能够充分提取图像中的局部和全局特征。
图3. Resblock部分具体操作示意图
解码器:解码器的任务是将编码器所提取的低维表示还原为像素级别的分割结果,从而完成肿瘤分割任务。网络整体结构遵循U型结构,编码器第一阶段提取的特征表示通过跳过连接的方式传递给解码器。在编码器的第二阶段,底层特征直接作为底层解码器的输入,经过上采样后与跳过连接的输出逐层相加。随后,一系列卷积层和上采样层逐步将特征图的分辨率增加,使其恢复到原始输入图像的尺寸。解码器的最后一层采用一个1 × 1 × 1的卷积层作为分割头,在不改变输出结果大小的同时,将每个像素点分配到不同的类别中,实现图像分割。通过这种设计在解码器中建立长期依赖关系和全局上下文交互,以获得更好的解码性能。
多尺度的注意力机制:在跳过链接部分,我们加入了一个多尺度的注意
力机制Mulit Attention SE (MASE),具体操作过程如图4所示。在MASE中,输入特征首先经过多尺度的卷积操作,再通过SEblock以产生加权的特征表示。最后,将不同尺度的SEblock输出特征相加。该机制在不同尺度上对输入特征进行多层次的关注,从而捕捉到更加丰富和多样化的特征信息。这种方法有效地利用输入特征中的信息,提升对信息的关注度和特征提取能力,从而有助于在解码阶段实现更好的性能表现。
图4. Mulit Attention SE多尺度注意力机制
针对本文的分割任务,我们选用了Dice损失函数。Dice系数通常被用作一种集合相似度度量函数,用于衡量两个样本之间的相似程度。其取值范围在0到1之间 [
DiceCoefficient = 2 | X ∩ Y | | X | + | Y | (1)
其中 | X ∩ Y | 表示集合X和Y的交集, | X | 和 | Y | 分别表示X、Y中元素的个数,对于分割任务而言, | X | 和 | Y | 分别表示分割的Ground True和Predict mask。
Dice Loss的目标是最小化预测分割结果与真实分割结果之间的差异,以使Dice系数尽可能地接近1,从而提高分割模型的性能,进而提高分割模型的性能。Dice损失和Dice系数的关系是:Dice Loss = 1 – Dice Coefficient,由此得到Dice Loss的公式为:
DiceLoss = 1 − 2 | X ∩ Y | | X | + | Y | (2)
针对我们的实验数据,考虑到数据量较少可能导致结果的偶然性,我们将所有病人数据转换成2D切片,并从中筛选出所有包含病变区域的数据进行实验。具体地,我们将筛选之后的602个数据按照7:1:2的比例随机分为训练集,验证集,测试集。即421个病例切片作为训练集,用于模型的训练过程,60个病例切片作为验证集,用于调整模型的超参数和监测训练的进展,121个病例切片作为测试集,以检验实验结果。我们的测试数据集在病变大小、位置和卒中类型等方面具有高度的多样性,旨在验证模型的泛化能力和鲁棒性。
我们使用了两张NVIDIA RTX 3090 GPU进行模型训练,批量大小设置为8,学习率为1e-4,权值衰减为1e-6。经过多次实验对比,发现在训练50次后,模型已经达到了较好的效果,并且性能相对稳定,每次训练过程大约需要1.7小时。
为了更好地进行对比研究,我们进行了消融实验。在消融实验中,我们使用了不包含Resblock和MuilSE的原始模型结构进行训练。在这些实验中,我们保持了与之前一致的参数设置,即批量大小为8,学习率为1e-4,权值衰减为1e-6,训练次数为50次,并使用相同的数据划分。
通过实验的评估,我们能够全面了解模型的性能和稳定性。这种实验设计使得我们能够对肺癌脑转移瘤的分割任务进行可靠且细致的研究。
我们首先进行消融研究,以评估加入Resblock和MuilSE的重要性。为了使评估结果更准确可靠,我们选取了多个评价指标,共同评估模型在分割任务中的不同方面的性能表现,包括对目标的准确识别、像素级的预测准确度等。实验结果如表1中所示。消融研究的结果显示,当Resblock被移除时,模型失去了残差连接和深层特征复用的能力,导致了性能下降。同样地,当MuilSE模块被移除时,模型无法有效地利用多尺度的特征信息和注意力机制,进而影响了分割性能。因此,这两种设计模块的加入对于模型的整体性能起到了关键作用。这证实了这两种设计对于模型性能的重要性。
Resblock | MuilSE | DICE | IOU | ACC | REC | PRE |
---|---|---|---|---|---|---|
√ | √ | 0.9065 | 0.8474 | 0.9989 | 0.9199 | 0.9159 |
√ | × | 0.9041 | 0.8408 | 0.9989 | 0.9176 | 0.9085 |
× | √ | 0.9034 | 0.8442 | 0.9989 | 0.9122 | 0.9170 |
× | × | 0.9007 | 0.8382 | 0.9987 | 0.9043 | 0.9169 |
表1. 消融研究实验结果
针对我们的模型特点和结构,我们对比了经典的全卷积网络结构U-net和引入了注意力机制的Attention U-net两种经典的分割模型。在对比实验中,均采用U-Net和Attention U-Net验证集上的最优模型进行测试,实验结果如表2。其中,在准确率和精确率方面,U-net与我们的模型相当,这表明U-net在正确分类像素方面具有很高的准确性,然而,Unet的召回率和精确率低于我们的模型,而Attention U-net的各项指标结果均不佳,我们推测是因为样本数据量一定程度上影响了其性能。这些都证实了我们的模型在小样本分割任务中能够产生高度准确的结果,并且对目标的识别和定位都具有很好的表现。
Model | DICE | IOU | ACC | REC | PRE |
---|---|---|---|---|---|
Our Model | 0.9065 | 0.8474 | 0.9989 | 0.9199 | 0.9159 |
U-net | 0.8820 | 0.8057 | 0.9984 | 0.8511 | 0.9409 |
Attention U-net | 0.6466 | 0.5275 | 0.9955 | 0.7504 | 0.6930 |
表2. 对比研究实验结果
在图5中,我们展示了在实验数据集上我们的模型与其他基线模型相比较的定性结果,白色区域表示标签1,即肿瘤标签部分。上到下分别是三个不同病例数据的图像,从左到右分别是精标准GT,本文提出的模型,U-net结构和Attention U-net的分割结果。我们可以观察到基线模型不能很好地预测分割边界,尤其是不规则的病变区域边缘,且会遗漏较小的病变区域。相比之下,我们提出的模型可以较为准确地预测分割边界,即使对于非常小的病变也可以精准地刻画。这是由于我们的模型有效地使用CNN和Transformer的优点来捕获细粒度的像素级细节,并通过残差和注意力机制建长距离联系。
图5. 分割结果可视化
在本文中,我们介绍了RM Transunet,这是一种利用残差结构和多尺度注意力机制对小样本脑肿瘤进行语义分割的新架构。我们提出的模型遵循Transunet的网络设计,并在编码器部分引入了残差连接,以辅助特征提取。在编码器与解码器的中间引入了加入不同尺度的注意力机制的跳跃连接,以获取更全面的特征,充分挖掘小样本数据的信息。我们对该方法进行了充分验证,证明了其有效性。
在未来的研究中,我们计划收集更多不同类型的样本用于模型训练,以增强模型的鲁棒性和泛化能力。通过引入更多样本,可以更好地适应不同情况下的变化,从而提高模型的性能和适用性。我们也将持续改进算法性,如改进注意力机制、优化损失函数或网络结构等,以进一步提高分割精度和效率。
杨玉婷,祝汉灿. RM Transunet:基于小样本数据的肺癌脑转移瘤分割RM Transunet: Segmentation of Lung Cancer Brain Metastases Based on Small Sample Data[J]. 计算机科学与应用, 2024, 14(04): 358-367. https://doi.org/10.12677/csa.2024.144105
https://doi.org/10.1371/journal.pone.0012560
https://doi.org/10.1016/j.cmpb.2022.106821
https://doi.org/10.1016/j.patrec.2021.01.036
https://doi.org/10.1007/978-3-030-46640-4_25
https://doi.org/10.1109/ICCKE48569.2019.8964956
https://doi.org/10.1109/ICPR48806.2021.9413346
https://doi.org/10.1109/CVPR.2016.90
https://doi.org/10.1016/j.bspc.2021.103077
https://doi.org/10.1109/ICCV48922.2021.00986
https://doi.org/10.1007/978-3-030-87193-2_11
https://doi.org/10.1109/WACV51458.2022.00181
https://doi.org/10.1109/CVPR52688.2022.01761
https://doi.org/10.1016/j.imed.2022.07.002
https://doi.org/10.1609/aaai.v36i3.20144
https://doi.org/10.1109/TITS.2022.3154407
https://doi.org/10.1109/IJCNN55064.2022.9892376
https://doi.org/10.1007/978-3-030-01234-2_1
https://doi.org/10.1109/CVPR.2018.00745
https://doi.org/10.18653/v1/2020.acl-main.45