Automated Key Point Detection for Labor Induction Ultrasound Imaging in Pregnant Women Using SE-SWTNet
In order to reduce the risk of induced abortion and improve the accuracy of clinical diagnosis of pregnancy, it is necessary to identify several key parameters in prenatal ultrasound examination. Collect 120 cervical ultrasound images from weeks 38 to 42 of pregnancy, annotate and preprocess the data. Using the traditional Swin transform er (Shifted Window Transformer) network as the baseline network, introducing transposed convolution and the final output feature layer, it can directly output keypoint parameters; Simultaneously incorporating regularization functions and SE (Squeeze and Excitation) attention mechanisms to reduce the risk of overfitting and improve the model’s generalization ability. Compare SE SWTNet (Squeeze and Excitation Shifted Window Transformer) with four existing algorithms. The results showed that SE SWTNet can accurately capture key point parameters in cervical ultrasound images. On the test set, the average radius error of SE SWTNet is 1.11 mm, and it achieved accuracies of 93.5%, 96.5%, and 97.5% within error ranges of 4 mm, 5 mm, and 6 mm, respectively. SE SWTNet can achieve high-precision automatic detection of key points based on ultrasound images of induced abortion in pregnant women, providing more accurate diagnostic information for clinical doctors, thereby reducing risks and improving success rates.
Induction of Labor
在产科,引产(Induction of Labour, IOL)是妊娠晚期孕妇在自然分娩开始前做采取的一种人工干预措施
在影像技术普及之前,宫颈成熟度的评估主要依靠人工检查,并通过Bishop评分
计算机技术的发展,深度学习技术使得上述需求成为可能。通过模型自动学习超声影像中的特征,识别并自动标识医生所需的信息,极大地提高了诊断的准确性和效率。本研究提出了一种宫颈超声图像关键点自动检测算法,能够实现自动、定量和精确地定位到所需参数的关键点。将标注好的图像数据输入到本研究构建的深度学习模型中进行训练,通过模型训练得到关键点的训练标签,随机抽取未标注的图像数据进行预测,利用训练好的模型自动预测出图像中的关键点。最后,我们将预测的关键点与医生手动标注的关键点进行比较和验证。在模型构建过程中,选取性能较好的swin transformer为基线网络,引入反卷积层作为上采样层以提高图像的空间分辨率。同时,为了增强模型的泛化能力和抑制过拟合现象,加入Dropout函数和注意力机制。构建了一种关键点检测网络SE-SWTNet,该网络能自动识别宫颈超声图像中的特征,并标记影响引产结局的几个参数的关键点。
本研究所用的实验数据均来源于上海市第一妇婴保健院,使用二维经会阴超声测量妊娠第38周至42周的妇女,获取宫颈超声图像,数据收集的时间为2022年11月至2023年7月。剔除质量较差,特征不明显的图像后,共采集了120张宫颈超声图像。本研究经医院伦理委员会批准[编号(No): KS2479],患者均知情同意。
对123名受试者的宫颈超声图像进行评估,每张图像由临床专家标注。对于实验中要用到的标签数据,利用Labelme工具标注后经医生审核并通过。其中70%的数据集被随机选择用于训练,剩下的30%用于测试。对于原始图像数据,所有图像体积都处理为各向同性,并调整为448 × 448像素,垂直和水平方向上的像素间距为0.146 mm。模型预测的关键点位置将以坐标形式存储。两个关键点组成宫颈管长度(Cervical Length, CL),三个关键点组成宫颈前角(Anterior Lip of Cervix, ACA),另三个关键点组成宫颈后角(Posterior Fornix of Cervix, PCA)。因此,这三个用于判断引产结局的参数由4个关键点来确定。见
SE-SWTNet的网络结构包括编码器和解码器两部分,编码器由swin transformer的前四个阶段构成,用于从输入的图像中提取特征并进行全局特征融合。解码器部分负责将编码器输出的特征图转换为最终的输出,添加了转置卷积(Transposed Convolution)层,通过对特征图进行填充和卷积操作,扩大特征图的尺寸,恢复原始图像的细节。同时,还添加了注意力模块,增强模型的表征能力,使其更好地捕获图像中的关键信息。为了使输出图像的通道数达到与原始标注图像的关键点个数保持一致,在网络的最后添加了一个卷积层。最终的卷积层将经过残差块和转置卷积后的特征映射转换为与关键点数量相匹配的输出特征映射,其中每个通道对应一个关键点的预测。整个网络是端到端的,可以直接接收原始图像作为输入,并输出直观的预测结果。见
Swin Transformer
为了实现跨窗口的信息交互,Swin Transformer采用了位移窗口(Shifted Window)。这种设计通过在每一层的窗口内进行局部自注意力计算,并在下一层中通过平移窗口来连接不同窗口之间的信息。这种机制使得网络能够在保持计算效率的同时捕捉到全局特征,避免了传统自注意力机制在计算上的高消耗。
Swin Transformer的基本结构由多个Swin Block组成,每个Swin Block包含两个核心模块:窗口化自注意力(Window-Based Self-Attention)和多层感知机。通过这些Swin Block的堆叠,网络能够逐层提取图像的多层次特征。此外,Swin Transformer采用了分层设计的架构,将图像从高分辨率的块逐渐转化为低分辨率的块,从而能够学习从局部到全局的特征表示。这种分层策略使得Swin Transformer不仅在计算效率上具有优势,而且能够适应不同尺寸和分辨率的图像输入。
为使模型的输出尺寸与输入的图像保持一致,在模型的解码器部分加入转置卷积。转置卷积可以将通过编码器输出的小尺寸图像恢复到卷积操作前的尺寸。它通过对输入的特征矩阵进行上采样,填充特征图的外层,并进行一系列的卷积操作,将卷积核参数逆向翻转,最终扩大特征矩阵的尺寸,以便进行像素级的预测。本研究设置了三个转置卷积层,每层都包含一个转置卷积、批归一层和ReLU激活函数,这样可以增加模型的非线性和稳定性。见
在转置卷积之后,为提高网络的表征能力,使模型能够关注信息量最大的通道特征并抑制不重要的特征,本研究引入了SE注意力机制
现有方法常应用高斯热图(Gaussian Heatmap)
平滑的概率分布,其具有连续性和平滑性,通过求最大值所在的位置坐标,可以更好地表示关键点的位置信息。为从预测的热图中提取2D关键点坐标,使用可微分的soft-argmax
(1)
式中, 是关键点位置 处的热图的值, 是热图的大小。分别用x,y两个与热图大小一样的卷积核对归一化后的热点图加权求和,等价于对应元素相乘再相加,等价于卷积运算,见公式(2)。
(2)
式中,其中d是一个给定的分量x或y,W是一个对应于坐标 的 权值矩阵。矩阵W可以用其分量 和 表示,它们是二维离散归一化斜坡,见公式(3)。
(3)
最后,给定一个热图h,给出了预测关键点的位置为公式(4)。
(4)
本研究所用的损失函数是pixel-wise的Mean Squared Error (MSE),见公式(5)。
(5)
式中K为关键点的个数, 和 分别代表对应的真实点和预测点的值。
实验环境为:Intel Core i9-10940X,NVIDIA GTX 3090显卡,64位操作系统,Pytorch深度学习框架。编程平台为Pycharm,图形加速环境为CUDA11.1。实验设置训练轮数为200个epoch,初始学习率为0.001。采用Adam优化器根据历史梯度信息来自适应地调整学习率,批次大小为8。为了加速模型收敛,选取轻量级的swin_tiny预训练权重。
对于预测得到的关键点,采用半径误差(RE),平均半径误差(MRE),标准差(SD)对模型的性能进行量化评估。其中,半径误差采用欧几里得距离进行测量,见公式(5)~(9)。
(6)
(7)
(8)
(9)
其中 表示半径误差, 表示预测关键点的坐标, 表示医生标注关键点的坐标, 代表测试总样本的数量与每个样本中关键点数量的乘积, 表示半径误差小于指定范围内的关键点数量在所有关键点数量中的占比, 表示临床上可以接受的误差范围,分别设置4 mm,5 mm,6 mm三个门限值对预测关键点的精度进行评判。
实验的可视化结果分析如下,选取4幅具有不同纹理特征与边缘轮廓的宫颈超声图像与HRNet、VITPose、U-Net和ResNet进行对比。从图像上可以清晰地观察到,本研究的方法相较于其他四个方法,所预测的关键点与医生标注的关键点更加接近,表现出更高的精度和准确性。见
方法 |
平均半径误差/mm |
标准差/mm |
不同误差范围内的准确率/% |
||
4 mm |
5 mm |
6 mm |
|||
U-Net |
3.31 |
2.10 |
63.3 |
73.6 |
82 |
ResNet |
3.32 |
1.97 |
71.7 |
83.2 |
87.5 |
HRNet |
2.27 |
1.21 |
72.8 |
83.8 |
88 |
VITPose |
1.62 |
1.02 |
80.3 |
83 |
92.8 |
Ours |
1.11 |
0.70 |
93.5 |
96.5 |
97.5 |
由
为评估SE-SWTNet在实际临床环境中的性能,我们在测试集中引入了不同水平的高斯噪声(σ = 0.01, 0.05, 0.1)以及高斯模糊(kernel size = 3, 5, 7),并测量关键点检测的精度变化。实验结果表明,SE-SWTNet在噪声和伪影干扰下仍能保持较高的检测精度,见
干扰类型 |
参数值 |
平均半径误差 ± 标准差(mm) |
不同误差范围内的准确率/% |
||
4 mm |
5 mm |
6 mm |
|||
无干扰 |
- |
1.11 ± 0.70 |
93.5 |
96.5 |
97.5 |
高斯噪声 |
σ = 0.01 |
1.15 ± 0.74 |
92.8 |
95.9 |
97.2 |
σ = 0.05 |
1.32 ± 0.89 |
89.5 |
93.2 |
95.6 |
|
σ = 0.1 |
1.58 ± 1.05 |
85.6 |
90.1 |
94.3 |
|
高斯模糊 |
kernel size = 3 |
1.18 ± 0.76 |
92.3 |
95.5 |
97.0 |
kernel size = 5 |
1.35 ± 0.91 |
88.7 |
92.8 |
95.2 |
|
kernel size = 7 |
1.61 ± 1.08 |
84.9 |
89.7 |
93.8 |
方法 |
平均半径误差 ± 标准差(mm) |
不同误差范围内的准确率/% |
||
4 mm |
5 mm |
6 mm |
||
SWT |
1.45 ± 1.19 |
86.5 |
90.2 |
93.3 |
SWT + Dropout |
1.32 ± 0.92 |
88 |
91.8 |
94.1 |
SWT t+ LMSE |
1.28 ± 0.81 |
89.7 |
93.5 |
95.7 |
SWT + SE |
1.22 ± 0.78 |
91.2 |
94.8 |
96.3 |
SWT + Dropout + LMSE + SE |
1.11 ± 0.70 |
93.5 |
96.5 |
97.5 |
近年来,关键点检测在医学图像处理中取得了较多的研究进展,在许多其他疾病的诊断过程中,关键点检测技术被广泛应用。如Ramadan
对于孕妇引产前宫颈图像参数的自动识别,由于孕晚期(38~42周)的宫颈超声图像具有极高的复杂度,因为宫颈在这一阶段会发生显著的变化,包括宫颈长度的缩短、软化和扩张。这些变化不仅难以通过肉眼判断,还因图像中包含的噪声和其他生理结构(如胎头和羊水)的干扰,使得关键点自动检测变得尤为困难。本研究选取swin transformer为主干网络,并引入了转置卷积和注意力机制,在一定程度上实现了网络在复杂医学图像上的关键点精准识别。实验结果表明,SE-SWTNet在关键点识别精度上优于HRNet、VITPose、U-Net和ResNet,能够较为稳定、准确地识别宫颈图像的关键点参数。
然而,本研究的方法仍存在一些局限性。例如,实验采用的数据量较少,更多的数据可能会训练出更为精准的结果;此外,实验所用数据为二维超声数据,这在一定程度上限制了模型的性能。三维超声数据包含了丰富的空间信息,而二维图像则可能丢失了部分关键信息。直接对三维数据进行关键点检测,可以更全面地利用图像中的空间信息,提高检测的准确性和稳定性。
本研究预测的孕妇引产前宫颈图像关键点参数对产科医生的阅片以及判断宫颈成熟度有着很大的帮助,但宫颈管长度、前宫颈前角和后宫颈角这三个参数对预测引产成功与否及引产后的妊娠结局仍需经过长期的时间和实践考量。
国家自然科学基金81101116。
*第一作者。
#通讯作者。