1. 引言
胰腺癌是一种恶性程度高、预后极差的消化系统肿瘤,据国外最新数据显示,胰腺癌总体5年生存率仅为13%,而在中国人群体中,仅有8.5%,是所有恶性肿瘤中最低的[1]。手术是目前胰腺癌唯一可能获得治愈的手段,因此早期诊断和精准治疗对提高患者生存率至关重要。医学影像技术,如计算机断层扫描(CT)和磁共振成像(MRI),在胰腺病变的诊断和分期中发挥着关键作用。然而,由于胰腺解剖结构复杂、与周围组织对比度低,且病变形态多样,医生手动分割胰腺病变耗时且易受主观因素影响。
近年来,深度学习技术在医学图像分割领域取得了显著进展,尤其是基于卷积神经网络(CNN)的算法在胰腺病变分割中展现出巨大潜力。开发自动化、高精度的胰腺病变图像分割模型具有以下重要意义:1) 大幅减少医生工作量,缩短诊断时间。2) 捕捉人眼难以识别的特征,减少漏诊和误诊。3) 精准的分割结果为手术规划和放疗靶区勾画提供可靠依据。4) 有助于大规模数据分析,推动胰腺癌的早期诊断和个性化治疗研究。
胰腺位于腹腔深处,周围被其他器官(如胃、肝脏、脾脏、肠道)包围,导致其在影像中难以清晰显示,此外,胰腺的形状、大小和位置在不同个体间差异较大,且与周围组织的对比度较低,边界模糊,导致难以分割。MedSAM编码器能够从复杂的医学图像中提取多层次、多尺度的特征[2],因此,本实验将MedSAM编码器与传统的U-Net网络结合,同时在上采样过程中加入高效通道注意力模块,提升了模型对胰腺病变区域的细节捕捉和精确分割能力。
2. 相关工作
近年来,随着深度学习方法的兴起,基于深度学习方法对胰腺病变分割得到广泛的研究。注意力机制源于对人类视觉的研究,能够使模型关注序列中关键的信息,为序列的不同部分分配不同的权重。SENet [3]将注意力机制应用于通道,通过动态调整不同通道的特征权重显式建模通道之间的依赖关系,自适应地重新校准通道特征响应。CBAM [4]将通道注意力与空间注意力相结合,将通道注意力模块和空间注意力模块的输出特征逐元素相乘,得到最终的注意力增强特征。这个增强的特征将用作后续网络层的输入,以在保留关键信息的同时,抑制噪声和无关信息。ECA-Net [5]提出了一种高效的通道注意力机制,避免了SENet中的全连接层。U-Net [6]是一种经典的医学图像分割网络,其编码器-解码器结构和跳跃连接能够有效捕捉多尺度特征。针对胰腺病变分割,研究者提出了多种U-Net与注意力机制结合的变体,如Attention U-Net [7]在编解码跳跃连接操作之间加一个新型注意力门,以此来实现自动学习关注不同形状和大小的分割区域从而增强对病变区域的关注,ST-TransUNet [8]基于多尺度密集连接和极坐标余弦编码进行胰腺肿瘤分割,聚焦胰腺肿瘤的分割边缘,避免特征感知的冗余。DAU-Net [9]提出一种金字塔注意力特征融合模块,引入通道和空间两个独立注意力机制,提供多尺度输入信息并行采样,解决了连续下采样导致特征空间信息损失的问题。
3. 数据集和实验方法
3.1. 数据集
本研究采用Medical Segmentation Decathlon (MSD)中的胰腺分割数据集,其中包含282例胰腺3D CT图像,图像尺寸为512 × 512 × D (D为切片数量)。数据来自多个医疗机构,具有较高的多样性和泛化性。所有数据均由专业医生进行标注,保证了标注的准确性。部分数据集切片可视化如图1所示,其中胰腺使用红色标注,病变区域使用绿色标注。
Figure 1. MSD_Pancreas datasets
图1. MSD_Pancreas数据集
实验时将数据集按照7:2:1的比例将数据集划分为训练集、测试集和验证集,并对数据集进行预处理操作,如随机旋转、翻转等操作,从而提高模型的泛化能力。
3.2. 模型架构
本研究中使用的模型结构如图2所示。采用MedSAM中的编码器对胰腺图像处理后,得到初步数据特征,MedSAM编码器从图像中提取多层次的特征,包括低层次的边缘、纹理信息和高层次的语义信息。随后对特征图进行下采样,一共4个阶段,将每个阶段得到的特征图分别作为网络结构第二、三、四、五层的输入特征图。每个上采样阶段加入高效通道注意力模块,减小降维带来的特征损失,并与对应层的输入特征图连接,本实验采用简单的跳跃连接。最终,通过一个1 × 1的卷积层将特征图映射到目标类别的数量,生成最终的分割结果。
Figure 2. Model architecture
图2. 模型架构
3.3. 高效通道注意力
高效通道注意力的核心思想是通过局部跨通道交互来计算通道权重,如图3所示,首先对输入特征图的各个通道进行全局平均池化,然后使用一维卷积进行局部跨通道交互,一维卷积核的大小通过自适应方法确定:
(1)
其中,
是通道数,
和
是超参数。随后,将通道权重与输入特征图相乘,得到加权后的特征图。
4. 实验设计
4.1. 超参数
本文实验在Python 3.8、CUDA 12.0、Pytorch 2.2.0、Nvidia RTX 4090 显卡环境下运行。超参数设置如表1所示。
Figure 3. ECA
图3. 高效通道注意力
Table 1. Hyper-parameter setting
表1. 超参数设置
优化器 |
初始学习率 |
Epochs |
Batch Size |
AdamW |
0.001 |
300 |
16 |
4.2. 损失函数
为了直观展示模型在胰腺病变图像分割任务中的性能表现,我们采用CeDice损失函数。CeDice损失函数是一种结合了Cross-Entropy (交叉熵)和Dice Loss (Dice损失)的混合损失函数,能够有效解决类别不平衡问题并提高模型的分割性能。
(2)
(3)
(4)
其中,N和C分别代表样本总数和类别总数,
和
分别代表真实标签和预测标签,
表示模型预测样本
属于类别
的概率,
和
表示损失函数的权重,默认值均为1。
4.3. 评价指标
极度不平衡的分割在医学图像分析中十分普遍,本文的胰腺病变分割任务便是其中之一[10]。病变区域通常远小于背景,常规的交叉熵损失函数应用于此类任务不具备优势,因此,本实验采用Dice相似系数(DSC)以及95%豪斯多夫距离(HD95)作为评价指标。DSC是一种用于衡量两个样本(通常是分割结果和真实标签)之间相似度的指标。其取值范围为[0, 1],值越接近1,表示分割结果与真实标签的重叠度越高。DSC主要用于衡量分割结果与真实标签之间的重叠程度。本实验目标区域通常较小,DSC能够有效评估小目标的分割效果。其公式如下:
(5)
其中P表示预测的分割标签,G表示真实的标签。
HD是一种用于衡量两个点集之间最大距离的指标,常用于评估分割结果的边界精度。HD值越小,表示分割结果与真实标签的边界越接近。HD对分割结果中的异常值(如孤立的错误预测点)非常敏感,能够反映分割结果的边界精度,对分割结果的形状和位置变化敏感。其公式如下:
(6)
其中,
表示点
和点
之间的欧氏距离。HD值越小,表示预测边界和真实边界之间的吻合度越高。
5. 实验结果与分析
5.1. 对比实验
为了验证本文所提模型的有效性,本研究与常用的U-Net [6]、V-Net [11]、Attention U-Net [7]、TransUnet [12]、Res U-Net [13]以及Deeplabv3+ [14]模型在MSD_Pancreas数据集上进行对比分析。这些模型均是医学图像分割领域的经典和前沿方法,具有广泛的代表性。对比结果见表2,本文方法均优于对比方法,DSC分数和HD95值分别为82.7%和10.2 mm,相比于基线U-Net方法提升了4.4%和2.3 mm,表明本文方法在分割精度上具有显著优势。
Table 2. Comparison of experimental results
表2. 对比实验结果数据
方法 |
DSC (%) |
HD95 (mm) |
Parameters |
U-Net |
78.3 |
12.5 |
31M |
V-Net |
79.8 |
11.8 |
76M |
Attention U-Net |
80.1 |
11.2 |
34M |
TransUnet |
82.5 |
10.5 |
105M |
Res U-Net |
81.2 |
10.9 |
35M |
Deeplabv3+ |
79.5 |
11.5 |
45M |
Ours |
82.7 |
10.2 |
53M |
5.2. 可视化
为直观展现各模型在胰腺病变图像上的分割效果,我们选取pancreas_15的第33张切片进行可视化展示,如图4所示,我们的模型对胰腺目标边缘的分割最接近于真实标签,且对病变区域的细节捕捉也优于选定的对比模型。
Figure 4. Visualization comparison
图4. 可视化对比
5.3. 消融实验
为了进一步验证模型各模块的有效性,设计了三组消融实验,分别验证MedSAM编码器和高效通道注意力模块在模型中的贡献。实验结果如下表3所示,当模型仅加入高效通道注意力模块时,DSC分数相比于HD值提升更大;而当模型仅加入MedSAM编码器模块时,HD值相较于DSC分数提升更为显著。根据实验结果可知,MedSAM编码器能够提升边界分割能力,而高效通道注意力能够提升标签预测的精度。通过该实验可知引入MedSAM编码器和高效通道注意力的有效性。
Table 3. Results of ablation experiments
表3. 消融实验结果
实验编号 |
MedSAM编码器 |
高效通道注意力 |
DSC (%) |
HD (mm) |
1 |
× |
√ |
82.1 |
11.8 |
2 |
√ |
× |
82.2 |
10.5 |
3 |
√ |
√ |
82.7 |
10.2 |
5.4. 局限性和改进方向
现有胰腺病变数据集在病变类型方面缺乏多样性且数据量较少,影响了模型的泛化能力;模型在胰腺病变分割数据集上训练和推理需要大量的计算资源,本文方法的参数量达到了53 M,导致了模型推理速度慢,难以满足实时性要求高的场景。未来将进一步研究如何优化模型结构,减少模型参数量,并采用数据增强技术扩充数据集,提高模型的泛化能力。
6. 总结
本文提出了一种融合MedSAM编码器和高效通道注意力的U型胰腺病变分割网络。使用MedSAM编码器,旨在有效捕捉医学图像中的复杂结构和细节,为后续分割提供高质量的特征表示。在采样过程中加入高效通道注意力模块,旨在增强通道间的依赖关系,使网络更关注重要特征,抑制不重要的信息。在MSD_Pancreas数据集上的实验结果表明,该模型在Dice相似系数(DSC)和95%豪斯多夫距离(HD95)上均优于基线U-Net和其他对比模型。通过消融实验,证明了融合MedSAM编码器和高效通道注意力模块的有效性。这一改进为胰腺病变分割以及医学图像分割提供了新的思路。未来工作将进一步优化模型,提升模型的泛化能力,并减少模型参数量。