随着高光谱遥感图像和神经网络的应用,基于高光谱遥感图像的植被覆盖类型分类进一步的发展。然而由于高光谱遥感图像具有更加丰富的光谱信息,传统分类方法不能很好地同时提取光谱特征和空谱特征。为了解决上述问题,本文以U-Net模型为框架,融合了3D-CNN和多尺度特征提取模块,提出了一种基于三维卷积和多尺度特征融合的神经网络模型,使得网络在进行特征提取和分类的过程中,更好的融合光谱信息、空间信息、全局信息和细节信息,最终使模型的分类准确度得以提升。 With the application of hyperspectral remote sensing images and neural networks, the classification of vegetation cover types based on hyperspectral remote sensing images has been further developed. However, since hyperspectral remote sensing images have more abundant spectral information, traditional classification methods cannot extract spectral features and spatial-spectral features at the same time. In order to solve the above problems, this paper takes the U-Net model as the framework, integrates the 3D-CNN and multi-scale feature extraction module, and proposes a neural network model based on three-dimensional convolution and multi-scale feature fusion. In the process of feature extraction and classification, the network better integrates spectral information, spatial information, global information and detail information, and finally improves the classification accuracy of the model.
随着高光谱遥感图像和神经网络的应用,基于高光谱遥感图像的植被覆盖类型分类进一步的发展。然而由于高光谱遥感图像具有更加丰富的光谱信息,传统分类方法不能很好地同时提取光谱特征和空谱特征。为了解决上述问题,本文以U-Net模型为框架,融合了3D-CNN和多尺度特征提取模块,提出了一种基于三维卷积和多尺度特征融合的神经网络模型,使得网络在进行特征提取和分类的过程中,更好的融合光谱信息、空间信息、全局信息和细节信息,最终使模型的分类准确度得以提升。
多尺度特征,三维卷积,高光谱遥感图像,植被覆盖
Lukang Zhao, Xijun Zhu
School of Information Science and Technology, Qingdao University of Science and Technology, Qingdao Shandong
Received: Apr. 17th, 2024; accepted: May 24th, 2024; published: May 31st, 2024
With the application of hyperspectral remote sensing images and neural networks, the classification of vegetation cover types based on hyperspectral remote sensing images has been further developed. However, since hyperspectral remote sensing images have more abundant spectral information, traditional classification methods cannot extract spectral features and spatial-spectral features at the same time. In order to solve the above problems, this paper takes the U-Net model as the framework, integrates the 3D-CNN and multi-scale feature extraction module, and proposes a neural network model based on three-dimensional convolution and multi-scale feature fusion. In the process of feature extraction and classification, the network better integrates spectral information, spatial information, global information and detail information, and finally improves the classification accuracy of the model.
Keywords:Multi-Scale Features, 3D-CNN, Hyperspectral Remote Sensing Imagess, Vegetation Coverage
Copyright © 2024 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
高光谱遥感图像(Hyperspectral Remote Sensing Image, HSI) [
传统的土地利用分类方法往往基于单一或少数光谱波段,难以捕捉土地利用类型的细微差异。而高光谱遥感图像提供了丰富的光谱信息,能够更准确地区分不同的土地利用类型。通过充分利用高光谱图像的光谱特征,可以提高土地利用分类的精度和准确性。
通过植被覆盖土地类型分类的研究,我们可以用来支持环境保护和生态恢复。高光谱遥感图像的植被覆盖类型分类可以为环境保护和生态恢复提供支持。通过对高光谱图像中不同植被覆盖类型的识别和分析,可以评估生态系统的健康状况、生物多样性水平 [
为了有效地利用高光谱遥感图像,研究人员开始开发各种光谱信息提取技术。这些技术包括光谱指数计算(如归一化差异植被指数 [
近年来,随着深度学习技术的快速发展,基于高光谱遥感图像的土地分类也取得了显著的进展。深度学习模型如卷积神经网络(CNN) [
本文以U-Net网络模型为基础,从高光谱遥感图像的特点出发,设计了一种基于三维卷积和多尺度特征融合的神经网络模型(Neural network model based on 3D convolution and multi-scale feature fusion, MS-3DNet),其具体结构见图1。
图1. 基于三维卷积和多尺度特征融合的神经网络模型结构图
在图1中,高光谱遥感图像首先通过Encoder模块进行特征提取,在特征提取阶段采用三维多尺度特征提取模块(3D-Inception)进行特征提取,提取的特征立方体经过最大化池化(MaxPool)后输入到下一层3D-Inception,同时特征体等待通过跳跃连接输入到同层的Decoder中进行特征融合。通过3D-Inception模块进行特征提取,不仅可以通过三维卷积同时提取特征图的光谱特征和空间特征,还可以通过多尺度的感受野提取不同尺度的特征。
三维卷积 [
图2. 三维卷积示意图
由于植被覆盖分类研究中的某些地物可能具有相似的光谱特征,如不同种类的作物可能具有相似的反射谱,这会增加农业用地类型分割的难度。但是由于在空间尺寸上植被覆盖地块通常具有较大的空间分辨率,空间信息对于网络模型具有较大作用,为了提高对空间信息的提取,本文提出的基于三维卷积和多尺度特征融合的神经网络模型(Networks based on 3D-CNN and Different Scales, DS-3DNet)对编码器进行了设计,即采用不同尺度的卷积核感受野对空间特征进行提取,即Inception模块 [
具体来说,编码器部分采用1 × 1 × 1、3 × 3 × 3、5 × 5 × 5、MaxPool四种不同的感受野,具体结构见图3。
图3. 多尺度特征提取编码器结构图
U-Net网络架构通过不同深度的特征图融合,既能够关注到深层特征图的全局信息,又能关注到浅层特征图的细节信息,适合语义分割 [
图4. 编码器结构图
经过4层编码器进行处理后,图像恢复至原来的空间分辨率,输入到输出层进行分类处理。
本文基础实验环境如下:CPU 6xE5-2680 V4;GPU NVIDIA GeForce RTX A4000,显存16.9 GB;内存32 GB;PyTorch v2.0.1,Python v3.10.12,Linux操作系统。
IndianPines数据集是使用美国航空航天局(NASA)的AVIRIS (Airborne Visible/Infrared Imaging Spectrometer)传感器采集的高光谱图像数据。采集自美国印第安纳州西北部地区,主要用于研究农田覆盖和土地利用。
IndianPines数据集图像尺寸为145 × 145像素。图像覆盖了一个农村地区,包括田地、森林、道路等地物。IndianPines数据集包含了224个连续的光谱波段,其中20个波段收到噪声的影响而被去除,涵盖了可见光、红外线和近红外线等波段。这些光谱波段的数据被用来描述不同地物的光谱特征。
IndianPines数据集包含145 × 145像素,包含16个类别。其中分布最多的种类是Soybean-mintill,数量达2455个,占比23.95%;分布最少的类别是Oats,数量仅20,占比0.20%。为了更清楚直观地观察IndianPines数据集中的样本类别的分布,假彩图和标签图见图5。
总体精度(Overall Accuracy) [
OverallAccuracy = TP + TN TP + TN + FP + FN (1)
图5. Indian Pines数据集
其中:TP——预测为正类且实际为正类的样本数。
TN——预测为负类且实际为负类的样本数。
FP——预测为正类但实际为负类的样本数。
FN——预测为负类但实际为正类的样本数。
平均精度(Average Accuracy) [
仍以二分类问题为例,计算平均精度的步骤如下:
首先,计算每个类别的精确率其计算公示如下:
Accuracy 0 = TN TN + FN (2)
Accuracy 1 = TP TP + FP (3)
然后,将每个类别的分类指标值相加,并除以类别数,得到平均精度。
AverageAccuracy = 1 N ∑ i = 0 N − 1 Accuracy i (4)
Kappa系数(Cohen’s Kappa coefficient) [
Kappa = P 0 + P e 1 − P e (5)
其中,P0表示观察到的准确率,即模型预测与实际观察之间的一致性,Pe表示随机准确率,即模型预测与实际观察之间的一致性的期望值。Kappa系数的取值范围为[−1, 1],其含义如下:
Kappa = 1:完美一致,模型的预测与实际观察完全一致。
Kappa = 0:随机一致,模型的预测与实际观察的一致性与随机预测的一致性相同。
Kappa < 0一致性低于随机水平,模型的预测与实际观察的一致性低于随机预测的一致性。
Kappa > 0:一致性高于随机水平,模型的预测与实际观察的一致性高于随机预测的一致性。
Kappa系数的计算涉及两个参数:观察到的准确率(P0)和随机准确率(Pe),对于一个具有K个类别的分类问题,混淆矩阵的大小为它们的计算方法如下:
观察到的准确率(P0)可以通过混淆矩阵中的对角线元素之和除以总样本数来计算:
P 0 = ∑ i = 1 K n i i ∑ i = 1 K ∑ j = 1 K n i j (6)
其中,nij表示混淆矩阵中第i行第j的元素。
随机准确率(Pe)表示模型的预测与实际观察之间的一致性的期望值,即在没有模型的情况下,预测与实际观察之间的一致性。计算方法如下:
P e = ∑ i = 1 K n i + × n + i ( ∑ i = 1 K n i + ) 2 (7)
在对比实验中,使用IP公开数据集进行实验比较,以评估本文提出的基于三维卷积和多尺度特征融合的神经网络模型(Neural network model based on 3D convolution and multi-scale feature fusion, MS-3DNet)与其他文献提出的方法之间的差异。
实验过程中,选取数据集中20%的样本作为训练集和验证集(训练集和验证集比例为1:1),其余样本用作测试集,评估指标采用总体准确度(OA)、平均准确度(AA)、Kappa系数,实验结果见表1、图6、图7。
图6. 不同网络模型在IP数据集的分类结果
图7. 不同模型分类结果热力图
根据表1可知,本文提出的基于三维卷积和多尺度特征融合的神经网络模型(DS-3DNet)算法在评价指标平均精度(AA)、总体精度(OA)、Kappa系数分别为98.20%、98.50%、97.95%,各项评价指标均高于相关文献提及到算法。
评价指标 | 1D-CNN | 2D-CNN | 3D-CNN | U-Net | DS-3DNet |
---|---|---|---|---|---|
OA | 83.67% | 92.15% | 93.25% | 95.22% | 98.20% |
AA | 76.28% | 90.37% | 94.13% | 95.12% | 98.50% |
Kappa | 80.46% | 92.18% | 94.14% | 94.53% | 97.95% |
表1. IP数据集分类结果
为了验证三维卷积模块的对实验结果产生影响,本文采用原始U-Net模型、采用三维卷积的U-Net模型、原始ResNet模型 [
Model | OA (%) | AA (%) | Kappa (%) |
---|---|---|---|
U-Net | 95.74 | 94.66 | 95.15 |
U-Net + 3D-CNN | 96.80 | 96.18 | 96.36 |
ResNet | 92.52 | 89.88 | 91.51 |
ResNet + 3D-CNN | 92.89 | 90.46 | 91.93 |
FCN | 94.45 | 91.75 | 93.69 |
FCN + 3D-CNN | 95.19 | 93.28 | 94.53 |
表2. 针对三维卷积模块的消融实验结果统计
图8. 不同模型消融实验分割结果
图9. 不同模型消融实验分类结果热力图
通过表2针对三维卷积模块的消融实验结果统计可知,三维卷积模块在处理高光谱遥感图像的过程中,可以更好的利用光谱信息,提升模型的分类的精度性能,通过引入三维卷积模块,U-Net模型的总体精度(OA)提升1.06%,平均精度(AA)提升1.52%,Kappa系数提升1.21%;ResNet模型的总体精度(OA)提升0.37%,平均精度(AA)提升0.58%%,Kappa系数提升0.42%;FCN模型的的总体精度(OA)提升0.74%%,平均精度(AA)提升1.53%,Kappa系数提升0.84%。
为了验证基于不同尺度特征提取的编码器模块对实验结果产生的影响,本文采用原始U-Net模型、采用基于不同尺度特征提取的编码器模块的U-Net模型、原始ResNet模型、采用基于不同尺度特征提取的编码器模块的ResNet模型、原始FCN模型和采用基于不同尺度特征提取的编码器模块的FCN模型进行消融实验,实验结果见表3、图10、图11。
Model | OA (%) | AA (%) | Kappa (%) |
---|---|---|---|
U-Net | 95.74 | 94.66 | 95.15 |
U-Net + MFE | 96.25 | 96.13 | 95.94 |
ResNet | 92.52 | 89.88 | 91.51 |
ResNet + MFE | 93.24 | 93.16 | 93.40 |
FCN | 94.45 | 91.75 | 93.69 |
FCN+MFE | 94.15 | 94.33 | 94.71 |
表3. 针对基于不同尺度特征提取的编码器模块的消融实验结果统计
图10. 不同模型消融实验分割结果
图11. 不同模型消融实验分类结果热力图
通过表3可知,基于不同尺度特征提取的编码器模块在处理高光谱遥感图像的过程中,可以更好的发掘空间信息,提升模型的分类的精度性能,通过引入基于不同尺度特征提取的编码器模块,U-Net模型的总体精度(OA)提升1.03%,平均精度(AA)提升1.01%,Kappa系数提升1.41%;ResNet模型的总体精度(OA)提升1.89%,平均精度(AA)提升1.79%,Kappa系数提升1.22%;FCN模型的总体精度(OA)提升0.43%,平均精度(AA)提升0.91%,Kappa系数提升1.05%。
为了验证基于不同尺度特征提取的编码器模块对实验结果产生的影响,本文针对提出的基于三维卷积和多尺度特征融合的神经网络模型(DS-3DNet)中的跳跃连接 [
Model | OA (%) | AA (%) | Kappa (%) |
---|---|---|---|
No Skip Connections | 86.14 | 86.55 | 85.67 |
Retain the last Skip Connections | 91.44 | 90.25 | 90.31 |
Retain the last Two Skip Connections | 95.32 | 94.87 | 94.76 |
Retain the last Three Skip Connections | 97.11 | 96.52 | 96.56 |
Retain All Skip Connections | 98.20 | 98.50 | 97.95 |
表4. 针对基于不同尺度特征提取的编码器模块的消融实验结果统计
图12. 不同模型消融实验分割结果
图13. 不同模型消融实验分类结果热力图
通过表4可以看出,不保留跳跃连接DS-3DNet模型和保留全部跳跃连接的DS-3DNet模型在模型分类的准确度上存在较大差异,两者在总体精度(OA)、平均精度(AA)、Kappa系数等评价指标上的差值分别为:12.06%、11.95%、12.28%,差值较大,提升比较明显,同时可以看出每增加一层跳跃连接,总体精度(OA)提升分别为5.30%、3.88%、1.79%、1.09%,平均精度(AA)提升分别为3.70%、4.62%、1.65%、1.98%,Kappa系数提升分别为4.64%、4.45%、1.80%、1.39%,通过分析可以看出随着跳跃连接的增加,跳跃连接对于模型性能提升的影响逐步降低。
由于传统卷积神经网络随着网络深度的加深,模型更加注重全局信息,导致局部细节丢失,而且对于高光谱遥感图像来说,因其具有更加丰富的光谱信息,传统的1D-CNN、2D-CNN不能很好的同时兼顾光谱信息和空间信息。同时在面向植被覆盖利用类型的高光谱遥感图像分割场景时,由于植被类型通常拥有相似的光谱特征,不易通过光谱信息进行区分,而在空间特征对于高光光谱遥感图像分割具有较大的增益特征,为了解决上述问题,本文以U-Net网络模型为主要框架融合了3D-CNN网络模型和不同尺度特征提取融合的网络模型,提出了基于三维卷积和多尺度特征融合的神经网络模型(DS-3DNet),使得网络在进行特征提取和分类的过程中,更好的融合光谱信息、空间信息、全局信息和细节信息,使得网络在分类精度方面有了一定的提升。
赵鲁康,朱习军. 面向植被覆盖的土地利用类型分类方法Land Use Type Classification Method for Vegetation Coverage[J]. 人工智能与机器人研究, 2024, 13(02): 388-398. https://doi.org/10.12677/airr.2024.132040
https://doi.org/10.1002/wics.101
https://doi.org/10.1016/j.acha.2007.11.001
https://doi.org/10.1016/S0893-6080(03)00169-2
https://doi.org/10.1007/s44196-023-00233-6
https://doi.org/10.16644/j.cnki.cn33-1094/tp.2021.04.003