DouDil UNet++: A Network Model for Retinal Vessel Segmentation Based on Dil-UNet++ Network with Double Branch Encoder
A network named DouDil-UNet++ is proposed in this paper to address the challenges of low contrast, high noise, and indistinct vascular details in retinal fundus images, aiming to achieve accurate segmentation of retinal vessels, which is crucial for assisting clinicians in the diagnosis of ophthalmic diseases. The DouDil-UNet++ network is an improved version based on the Dil-UNet++ network and incorporates a dual-branch encoder U-shaped structure. The Dil-UNet++ serves as the main segmentation network to extract spatial detailed features from the retinal vascular images, while the Tr-Net functions as the auxiliary segmentation network to capture global semantic features. The Tr-Net employs a feature sequence module consisting of five convolutional layers and a Transformer feature extraction module with edge multi-head attention to capture the global features of the images. Additionally, a feature fusion module is utilized to aggregate the feature information extracted by the main and auxiliary segmentation networks. To assess the segmentation performance, experiments were conducted on the DRIVE and STARE retinal vessel datasets. On the DRIVE dataset, the model achieves a Dice coefficient of 87.93%, an accuracy of 96.39%, and a precision of 93.52%. On the STARE dataset, the model achieves a Dice coefficient of 88.71%, an accuracy of 97.79%, and a precision of 87.08%.The results indicate that the proposed network exhibits good performance in retinal vessel segmentation tasks, demonstrating its utility and effectiveness.
Dil-UNet++
眼底血管是人体唯一能够在体外直接观察到的血管,眼科医生观察眼底图像中呈现的血管形态可以有效的分析判断糖尿病视网膜病变、青光眼和微动脉瘤等眼部疾病
自动分割眼底视网膜血管的技术主要分为传统图像分割方法和基于深度学习的分割方法。在传统图像分割方法中,常见的技术包括基于匹配滤波法和基于模糊聚类的方法等。这些传统方法往往因为容易受到噪声和图像质量的影响,导致分割效果不尽如人意。为了克服这些限制,随着深度学习技术在图像处理领域的快速发展,越来越多的研究者开始探索深度学习在图像分割领域的应用。
2014年,Long等人基于卷积神经网络(CNN)的框架
针对视网膜血管图像中血管结构复杂、形状不规则和管径细小等特点,本文提出了双分支编码器分割网络DouDil-UNet++,该网络模型可以用双分支编码器的结构同时分别提取血管图像的空间信息特征和全局语义特征,也能够充分提取融合多尺度的血管特征,避免分割结果中血管图像细节的丢失。本文的主要工作包括:(1) 提出了一个包含Dil-UNet++主分割网络和辅分割网络的双分支编码器结构网络模型,分别用于提取血管图像的空间细节特征信息与全局特征信息,同时提高网络对整体血管结构和血管连接细节部分分割的准确性。(2) 为了更好的提取血管图像的空间特征信息,在Transformer结构的基础上提出了Tr-Net辅分割网络,将特征序列化模块和Transformer特征提取模块串行结合,同时在Transformer模块中使用改进后的边缘多头注意力机制,使网络更好的分割血管的交叉处与边缘细节特征。(3) 使用特征融合模块实现主分割网络与辅分割网络的多尺度特征信息融合,避免血管信息在处理时丢失,从而优化网络的分割性能。本文提出的DouDil-UNet++网络模型结构如
眼底视网膜血管图像的复杂性较高,因此在提取图像中血管细节部分是分割的关键,获取图像全局上下文信息之间的依赖关系对分割血管区域和背景区域也十分重要,但是仅靠卷积神经网络很难提取远距离特征的联系关系
Transformer的输入是一个特征序列,所以在图像输入Transformer模块前需要将图像特征序列化处理
(1)
在式子中E ϵ R(P2*C)*D表示图像补丁的嵌入投影;E ϵ RN*D表示位置编码。经过以上步骤,特征序列化模块将输入的图像序列化处理并完成语义嵌入。特征序列化模块结构如
在图像分割领域,由于医学图像本身结构复杂,数据标注存在困难,所以尽管基于卷积神经网络的模型在医学图像分割领域取得了很好的效果,但卷积操作提取全局信息不足的局限性阻碍了分割网络精度的进一步提升
自注意力机制是Transformer结构的核心,在捕捉长距离依赖方面发挥了重要作用
(2)
其中,q、k、v表示输入特征层通过线性映射得到的特征向量;dk代表向量k的维度。
在多头注意力机制中,我们使用多组q、k、v向量分别组成矩阵Q、K,V,然后并行地对它们进行计算,最后将它们在通道维度进行拼接。通过多头注意力机制,不同的维度能够学习到来自不同子空间的不同特征表示。
为了使注意力机制在特征信息解码输入时更关注血管边缘细节信息,在进行线性操作前对矩阵Q、K、V分别经过大小为2*2的卷积操作和最大池化操作,提取深层的图像细节特征。边缘多头注意力机制的公式如3所示。
(3)
其中,
,表示边缘多头注意力中头的个数;WiQ’和WiK’是形式为(dmodel, dk)的矩阵,WiV’是形式为(dmodel, dV)的矩阵。dk= dV= dmodel/H,H代表边缘多头注意力中头的数量,三者都是用于映射输入的可以学习参数矩阵;而dmodel则代表了整个序列的维度;Concat是矩阵拼接操作;Attention是边缘多头注意力机制。边缘多头注意力机制结构如
前馈神经网络FFN由两个正则化层两个线性层一个ReLU激活函数组成
(4)
其中,X是输入的图像矩阵:XWi是和X大小尺寸相同的矩阵;bi是长等于X通道数的一维向量。前馈神经网络结构如
经典的U-Net分割网络通常将特征提取编码器与解码器进行同尺度特征融合,在网络对图像特征提取的阶段,随着网络层数的加深特征图像的分辨率会不断下降,因此其包含的语义信息会随着减少,从而导致图像的边缘细节信息丢失
在辅分割网络特征序列化模块和Transformer模块的每一层输出后增加一个特征融合模块,每个特征融合模块由一个3 × 3的卷积层和一个Sigmoid激活函数组成,负责将各层输输出进行融合,得到最终的分割结果。改进的特征融合模块通过对空间特征信息和全局特征信息多个尺度特征的学习融合,实现了对各层级特征充分的利用,极大的避免了特性信息经过编码器处理后的丢失的情况,可以获得更好的分割结果,同时,改进的多尺度融合监督结构并没有引入过多的参数。
特征融合过程公式如式5所示。
(5)
其中,FL代表空间特征信息,FH代表全局特征信息,l为特征图的层数,⊕为元素加法。
本文实验平台的操作系统基于64位Windows,python版本为3.8,编程软件为PyCharm,模型训练和测试基于深度学习框架PyTorch 1.13.0,在实验中,采用Adam优化器对网络参数进行优化
本文采用DRIVE和STARE这两个眼底视网膜血管图像数据集来验证本文所提出模型的分割性能。具体来说,DRIVE数据集包含40张彩色眼底血管图像
图8. STAREE数据集图像
在DRIVE和STARE数据集中,所包含的血管图像均为RGB模式。这些图像中常常含有如光斑和杂质等多种噪声,这些噪声因素可能会影响图像分割的精度。为了提高分割的准确性,本文在模型训练之前实施了一系列预处理步骤以突出图像中的血管部分。预处理的第一步是将彩色图像转换为灰度图像
图9. 预处理各阶段图像
图10. 裁剪后视网膜血管图像
由于DRIVE和STARE眼底视网膜血管数据集中的图像数量相对较少,这一限制可能导致模型在训练过程中容易发生过拟合现象
为了全面评估模型在视网膜眼底血管图像分割任务上的有效性,本文采用生成混淆矩阵的方法
理论上,这五个评价指标的数值越高,表明血管分割的效果越好。特别是F1 score,它通常用来衡量二分类模型的精确度,F1 score的高值表明模型在分类任务中的表现更佳。这些评价指标的具体数学表达形式如式6所示,通过这些公式可以精确地计算出每个指标的数值,从而对模型的整体性能进行科学的评估。
(6)
其中,TP为正确分割的血管像素的数目,TN为被正确分割的背景像素的数目,FP为被错误分割为血管像素的背景像素,FN为被错误分割为背景像素的血管像素
此外,为了进一步深入评估模型的性能,本文还引入了PR (Precision-Recall)曲线和ROC (Receiver Operating Characteristic)曲线的曲线下面积作为评价指标。PR曲线是通过综合考虑召回率和精确度来评估模型的性能,特别适用于数据集中正负样本分布不均的情况。ROC曲线则通过综合考虑敏感度或真正率和特异性或假正率来评估模型的性能。
PR曲线的横轴是召回率,纵轴是精确度,曲线下的面积越大,说明模型在保持召回率的同时也能保持较高的精确度,表明模型的性能较好。同样,ROC曲线的横轴是假正率,纵轴是真正率,其曲线下的面积也是一个重要的性能指标。线下面积值越大,说明模型在区分正负样本的能力越强,性能越优秀。因此,PR和ROC曲线下的面积越大,不仅表明模型具有更好的分类精度,也表明其具有良好的鲁棒性。通过这两种曲线的综合评估,可以全面了解模型在视网膜眼底血管图像分割任务中的整体表现。
图11. DRIVE数据集分割结果示例(依次为原图、概率预测图、二值预测图和标签图)
图12. STARE数据集分割结果示例(依次为原图、概率预测图、二值预测图和标签图)
本文提出的DouDil-UNet++双分支编码器网络分别在DRIVE和STARE视网膜血管数据集上进行了实验,分割结果分别如
DRIVE和STARE数据集图像交叉处血管和亮斑处血管的局部放大图如
通过对比分析模型处理后的图像与原始手工标记的图像,可以明显看出本文模型在细节处理上的细致与准确。局部放大的视图进一步证明了Dil-UNet++模型在分割视网膜血管细节方面的优越性和稳定性。这种精确的分割有助于更好地识别和分析血管结构,体现了该模型在医学图像分割领域的应用潜力。
图13. STARE数据集局部分割结果放大图
图14. 验证过程准确度与F1值变化图
在DRIVE数据集上验证过程准确度与F1值变化如
精确度–召回率曲线与ROC曲线以及其各自的线下面积能够直观的体现网络分割的效果,在DRIVE数据集上分割结果的PR曲线和ROC曲线如
图15. PR曲线和ROC曲线
在STARE数据集上进行实验验证,分割准确度与F1值随迭代次数变化如
图16. 验证过程准确度与F1值变化图
在STARE数据集上实验验证分割结果精确度–召回率曲线与ROC曲线如
为了验证本章提出的模块在视网膜血管图像分割任务中的有效性,在DRIVE和STARE数据集上进行了消融实验,通过逐步增加模块并比较实验结果,评估每个模块对分割性能的贡献,进一步验证了模块的有效性,使用DICE系数、平均交并比MIoU、准确度Accuracy、F1值作为评价指标进行实验对比。Dil-UNet++作为基准网络;C-Dil-UNet++表示加入特征序列化模块的Dil-UNet++的网络;Tr-Dil-UNet++表示为加入由特征序列化模块和Transformer特征提取模块组成辅分割网络的Dil-UNet++的网络;DouDil-UNet++表示加入辅分割网络和特征融合模块的Dil-UNet++网络。消融实验结果如
图17. PR曲线和ROC曲线
Architecture |
DICE |
MIoU |
Accuracy |
F1 |
Dil-UNet++ |
87.68 |
84.03 |
96.05 |
82.02 |
C-Dil-UNet++ |
87.19 |
83.88 |
95.92 |
83.02 |
Tr-Dil-UNet++ |
87.72 |
85.07 |
96.13 |
84.38 |
DouDil-UNet++ |
87.93 |
85.29 |
96.39 |
84.52 |
Architecture |
DICE |
MIoU |
Accuracy |
F1 |
Dil-UNet++ |
87.48 |
82.25 |
95.62 |
86.54 |
C-Dil-UNet++ |
88.19 |
82.64 |
96.55 |
87.29 |
Tr-Dil-UNet++ |
88.33 |
83.16 |
97.14 |
87.59 |
DouDil-UNet++ |
88.71 |
83.27 |
97.79 |
88.53 |
由
为了进一步突出本文提出网络在血管图像分割任务上的优越性,在相同条件环境下使用不同网络对DRIVE数据集与STARE数据集分割处理,与DouDil-UNet++网络在五个常用的分割评价指标上进行横向对比。如
Architecture |
DICE |
MIoU |
Accuracy |
Precision |
F1 |
UNet |
83.21 |
84.00 |
89.15 |
89.21 |
75.29 |
UNet++ |
86.09 |
87.15 |
94.16 |
90.32 |
79.57 |
TransUNet |
82.37 |
82.50 |
90.22 |
89.97 |
82.88 |
Dil-UNet++ |
87.68 |
85.52 |
96.05 |
92.82 |
83.72 |
DouDil-UNet++ |
87.93 |
85.29 |
96.39 |
93.52 |
84.52 |
在SRIVE数据集中有病变特征的血管图像占百分之五十,因此会对分割任务造成比较大的影响,但是本文提出的DouDil-UNet++网络能够在噪声的影响下高效完成分割任务。不同网络在STARE数据集上的分割结果如
Architecture |
DICE |
MIoU |
Accuracy |
Precision |
F1 |
UNet |
85.15 |
81.26 |
91.58 |
83.91 |
82.28 |
UNet++ |
85.22 |
83.59 |
94.16 |
85.22 |
81.33 |
TransUNet |
87.91 |
82.70 |
91.26 |
86.91 |
85.66 |
Dil-UNet++ |
87.48 |
82.25 |
95.62 |
87.28 |
86.54 |
DouDil-UNet++ |
88.71 |
83.27 |
97.79 |
87.08 |
88.53 |
在眼底视网膜血管分割任务中,由于血管结构复杂,交叉处与边缘细节模糊,与背景对比度较低等特征,尤其是病变特征的血管图像,血管会更加难以区分,这些都会给网络分割血管造成困难。为了准确高效的分割视网膜血管图像,本文提出了双分支编码器分割网络DouDil-UNet++,首先提出了Tr-Net辅分割网络,与Dil-UNet++网络组成双分支结构,使网络能够同时提取图像中丰富的语义信息和完整的空间信息;其次为了提取血管细节信息,针对性地提出了边缘多头注意力机制,运用在Tr-Net辅分割网络中的Transformer特征提取模块;最后使用特征融合模块将辅分割网络各尺度输出与主网络特征提取模块各尺度输出特征信息进行聚合,进一步丰富上下文语义信息,缓解模型在下采样过程中的信息丢失问题。实验结果表明,DouDil-UNet++网络模型在DRIVE数据集和STARE数据集上都有良好的分割效果,与常用最新的分割网络相比较,在各项分割评价指标上都有一定的提升,证明了本文提出网络的可行性和实用性。
虽然本文提出的方法在眼底视网膜数据集上进行实验验证得到了良好的效果,但是在模型参数量以及数据量扩增上都存在改进的空间。
辽宁省教育厅科学研究经费项目(L202004)。
*通讯作者。