Yangtze Finless Porpoise Sexual Behavior Object Detection Model Based on YOLOv8
Research on the sexual behavior of Yangtze finless porpoises contributes to the conservation of this endangered species. Traditional methods rely on human observation, which is inefficient, costly, and prone to observer fatigue. With advancements in deep learning technology, the visual monitoring system at The Finless Porpoise Pavilion at the Institute of Hydrobiology, Chinese Academy of Sciences, can leverage object detection and recognition techniques to improve observation efficiency. In this study, we first constructed the YFPSB dataset, consisting of 2901 images covering five behavioral categories. To address challenges such as underwater image blurriness and the confusion between finless porpoises and the background, we establish the YOLOv8n-DBTA model. First, we apply automatic gamma correction and dark channel dehazing for image preprocessing. Then, we design a dual-branch feature fusion framework that introduces additional feature fusion paths, preserving more low-level details and features to enhance detection capability. Additionally, we develop a task-aligned detection head to enable interaction between positional and categorical information, allowing the model to learn the relationship between porpoise behavior and location. Finally, we conduct model experiments and analysis. The results demonstrate that our model achieves 97.9% and 79.1% on mAP 0.50 and mAP 0.50:0.95, respectively, outperforming other mainstream models.
Finless Porpoise
长江江豚Yangtze Finless Porpoise (Neophocaena asiaorientalis asiaorientalis)是仅分布于中国长江中下游干流及主要的通江湖泊的现存唯一淡水鲸类动物,种群数量约1249头
传统的江豚行为学研究依靠专家人眼识别,存在效率低、人工成本高的问题。如今,利用摄像头来对人工饲养水生物进行监控观测已经成为水生物研究的重要手段。通过江豚池的监控摄像可以观察、记录江豚的性行为。中国科学院水生生物研究所白鱀豚馆配备了支持倍速回放的监控平台来缓解传统方法的不足,但是通过直接观察监控来研究江豚性行为仍有局限性。首先,需要观察水上和水下两个机位的数个摄像头来对江豚的性行为进行研究,对同一时段多个机位的江豚进行观察的工作量是庞大的。其次,观察人员需要持续观看监控,但是大部分时间江豚并没有性行为,肉眼监控研究江豚性行为的效率较低,因此迫切需要引入自动化和智能化的技术手段来实时检测与识别江豚性行为。
随着神经网络及模式识别等自动化技术的发展,图像检测与识别技术开始被运用于水生生物:孙月平
上述研究结果表明,图像检测与识别技术对水生生物的自动化识别具有一定作用,但水生生物的识别往往各物种间差异较大,模型的普适性不强,且易受到观测环境影响,需要针对各类观测情况进行优化设计。基于上述背景,本文创建了首个人工饲养环境下的江豚性行为数据集(Yangtze Finless Porpoise Sexual Behaviour, YFPSB),针对水质模糊、江豚与背景混淆等影响江豚性行为检测与识别的问题,构建了江豚性行为检测与识别模型YOLOv8n-DBTA。
要使得识别任务精确进行,就要选用高质量的数据集对模型进行训练和测试。本文首先建立了江豚性行为数据集。图像数据采集工作于中国科学院水生生物研究所白鱀豚馆进行。中国科学院水生生物研究所白鱀豚馆(湖北武汉)的饲养设施包含3个饲养池,分别为肾形主养池、圆形副养池和圆形医疗池。我们选择了来自肾形主养池和圆形副养池两个池子共三个机位的监控录像,共获得967张江豚图像,如
本文聚焦于江豚性行为的研究,对于水上机位,将江豚行为分别标注为由训练员引导的出水行为(Normal Training)、人工采精行为(Training for Semen Collection)和正常行为。对于水下机位,将江豚行为分别标注为性行为(Sexual Behavior)、自慰行为(OBJ)和正常行为。
本数据集参考张长群等人
1) 训练员引导的行为(Normal Training):训练员引导江豚靠近、出水等行为,如
2) 人工采精行为(Training for Semen Collection):训练员对江豚进行人工采精,如
3) 性行为(Sexual Behavior):阴茎勃起后接近或接触其他个体的任何行为,包括生殖器勃起、尝试插入、插入、尾鳍插入、接近、追逐、摩擦等十三种行为。如
4) 自慰行为(Object Rubbing):雄性或雌性长江江豚在池底,池边凸出部分以及窗户边缘摩擦生殖裂,如
5) 正常行为(Normal):非训练员引导下江豚非性行为的活动状态。如
在深度学习训练的过程中,通过旋转、平移、翻转等数据增强
为了配合白鱀豚馆的监控平台实时检测与识别江豚性行为并自动统计次数和时间段,建立了江豚性行为目标检测与识别模型。由于单阶段的算法比双阶段的算法更适应需要兼顾实时性和准确性的江豚性行为检测与识别需求。本文基于单阶段的YOLOv8
基于YOLOv8n,本文提出了一种双主干的江豚性行为检测与识别模型YOLOv8n-DBTA,如
通过观察数据集,可以看到采集到的图像受到水下环境及研究所设备的限制,存在画质模糊、难以明显区分江豚与背景的问题,给模型的训练造成困难。为此,我们首先对图像进行预处理,以增强江豚与背景的区分度。预处理模块由自动伽马校正
在水下环境中,光线、波动以及背景的复杂性都会干扰目标的检测与识别。经典的YOLOv8n网络可能无法有效地分离江豚与背景,存在漏检和误检的问题,且在处理细粒度行为分类时可能存在误差。水下环境中,江豚有时成群出现,原网络可能难以同时检测与识别多个目标,尤其是当它们距离较远或部分遮挡时。为了解决这一问题,在YOLOv8n的主干网络中引入了HGNetv2
为了避免在浅层特征图上消耗过多计算资源,本研究设计的DualBackbone共享一个HGStem的信息,避免计算量过大、推理时间过大的问题。如
由于直接用双主干分别学习特征会导致最后得到的特征差异过大,本研究提出了FAF模块来解决来自不同主干的特征差异。从两个分支得到的特征在FAF (Feature Align Fusion)特征对齐融合模块进行动态对齐,然后将融合后的特征再给到各自的主干进行学习。如
(1)
(2)
(3)
(4)
江豚的行为类别与其位置相关,如江豚在自慰时通常出现在井盖等地、靠近水面的时候通常是正常行为。因此,经典YOLOv8的解耦结构虽然在分类和定位上表现优秀,但它将分类头和检测头完全分离,在模型的训练和推理过程中,分类头和检测头各自独立地处理输入数据,没有直接的信息交互。这在复杂场景下可能导致性能下降。为了解决这个问题,本研究提出了共享参数的任务对齐检测头(Task Align Detection Head, TADH)。参照TOOD
如
(5)
(6)
式5中,为特征对每个任务的计算值,是第 层的注意力权重,是任务交互的特征。式6中, 是sigmoid函数, 为全连接层,是指relu函数,对由拼接后得到的使用平均池化后得到。
Task Decomposition模块动态计算每个任务特定的特征,从而有效地将两个任务的特征进行分解以避免冲突。最后在使用共享卷积的同时,为了应对每个检测头所检测的目标尺度不一致的问题,使用Scale层对特征进行缩放。通过上述改进,TADH不仅减少了参数量,还通过共享参数和任务对齐机制,增强了模型在水下江豚性行为识别任务中的性能,定位和分类的交互性得到了极大的提升。
本研究选择平均精度
(7)
(8)
(9)
本文实验均在Linux系统上进行,操作系统版本为Ubuntu 18.04,CPU为Intel(R) Core(TM) i9-10900K,RAM为62GB,显卡为NVIDIA GeForce RTX 3090。本文的实验配置的环境的Python版本为3.8.8,PyTorch版本为2.1.0 + cu121,CUDA版本为11.1。在实验中,训练epoch数设置为400,batch size设置为16,初始学习率设置为0.01。不使用预训练权重,网络输入图像的大小默认设置为640 × 640。
在进行图像预处理模块的消融实验中,我们对比了几种不同配置的YOLOv8n模型的性能。实验结果如
模型 |
mAP0.50 (%) |
mAP0.50:0.95 (%) |
YOLOv8n (w/o IP) |
96.8 |
77.4 |
YOLOv8n (w/ IP) |
97.2 |
77.5 |
YOLOv8n-DBTA (w/o IP) |
97.3 |
77.8 |
YOLOv8n-DBTA (w/ IP) |
97.9 |
79.1 |
改进前后的实验结果如
消融实验结果如
试验方案 |
Normal training |
Sexual behavior |
Obiect Rubbing |
Normal |
Training for semen collection |
YOLOv8n |
95.1 |
98.4 |
99.2 |
94.3 |
98.2 |
Ours |
96.7 |
98.7 |
99.5 |
95.9 |
98.5 |
浮点计算量上升了5.6%,mAP0.50和mAP0.50:0.95分别提升到97.6%和80.3%。方案2的双主干模型框架,使参数量和计算量上升,平均进度值相比原始模型略有提升,表明DualBackbone改进对模型性能也有一定的正面影响。方案3同时采用DualBackbone和TADH,参数量与原模型相比上升了50.5%,浮点计算量上升了47.0%,模型的平均精度值mAP0.50和mAP0.50:0.95分别达到97.9和79.1,与改进前相比分别提升了1.1%和1.7%,为所有方案中最优,说明两种改进方法的结合能够最大化提升模型性能。这表明,水下图像处理技术的采用通过自动伽马校正与暗通道先验去雾的方式,改善图像的亮度并缓解了水体浑浊的问题,改进了图像的背景区分度。DualBackbone和TADH两种改进方法均对模型性能有积极影响,且二者的结合可以取得更好的效果。
综上所述,通过消融实验,我们验证了图像预处理模块、DualBackbone和TADH三种改进方法对YOLOv8n模型性能的提升作用。其中,YOLOv8n-DBTA (w/IP)同时引入了DualBackbone和TADH,在保证参数量和计算量可控的前提下,取得了最佳的性能。
试验方案 |
DualBackbone |
TADH |
参数量(M) |
浮点计算量(×109次,1 s) |
mAP0.50 (%) |
mAP0.50:0.95 (%) |
YOLOv8n (w/o IP) |
× |
× |
3.01 |
8.1 |
96.8 |
77.4 |
方案1 (w/IP) |
× |
√ |
2.24 |
8.6 |
97.6 |
80.3 |
方案2 (w/IP) |
√ |
× |
5.28 |
11.4 |
97.5 |
78.5 |
方案3 (w/IP) |
√ |
√ |
4.52 |
11.9 |
97.9 |
79.1 |
为了进一步验证所提模型在江豚性行为检测与识别任务中相对于其他主流模型的优越性,对改进模型与当前主流目标检测与识别模型进行了对比实验,实验结果如
1) 图像预处理模块通过自动伽马校正和暗通道先验去雾技术,增强了图像的亮度并缓解了水体浑浊的问题,改善了图像的背景区分度,从而提高了模型在复杂水下环境下的检测精度和鲁棒性;
2) 双主干特征融合框架(DualBackbone)增强了对不同尺寸和位置的江豚目标的识别能力,尤其在群体行为或重叠目标的情况下,减少了漏检和误检;
3) 任务对齐检测头(TADH)通过共享参数和任务对齐机制,将分类任务与定位任务进行交互,增强了模型对江豚性行为类别与位置关系的学习能力,提升了定位和分类的交互性。
本实验证明了这些改进的有效性。
模型 |
参数量(M) |
浮点计算量(×109次,1 s) |
mAP0.50 (%) |
mAP0.50:0.95 (%) |
YOLOv5n |
2.50 |
7.1 |
97.1 |
76.0 |
YOLOv10n |
2.27 |
6.5 |
97.0 |
73.6 |
YOLOv8n |
3.01 |
8.1 |
96.8 |
77.4 |
YOLOv8n-DBTA (w/IP) |
4.52 |
11.9 |
97.9 |
79.1 |
为了更直观地反映模型在江豚性行为检测与识别任务中相对于其他主流模型的优越性,在江豚数据集中选取两张水质模糊、江豚目标较小或部分被遮挡的图片进行推理。如
综上所述,本文提出的改进模型与不同的目标检测与识别模型相比,在检测精度上具有一定的优势,同时并未增加过多的参数量,使得本模型的部署相对便利。
长江江豚是濒危动物,对长江江豚性行为的研究可以促进其人工繁殖的成功以及种群快速增加和恢复。传统的江豚性行为识别靠专家人眼识别,存在效率低、人工成本高的问题,提出一种双主干的江豚性行为检测与识别模型YOLOv8n-DBTA。首先增加了图像预处理模块来增加图像的对比度、缓解水体浑浊的问题,接着设计双主干特征融合框架(DualBackbone)以保留更多底层特征图细节和特征来提高模型对江豚的检测能力。最后设计任务对齐检测头(TADH),将位置与类别信息进行交互来更好地学习江豚的行为与位置的关系。我们还与其他主流模型进行了对比试验,证明我们的模型比其他模型更适合江豚性行为检测。本模型为监控江豚性行为提供了一种先进的技术手段,为今后深⼊开展江豚的繁育保护及繁殖生物学研究提供支撑,为相关领域的科研和水生物保护工作提供有力支持。
*通讯作者。