针对山地丘陵地区无人机影像分类尺度难以确定,特征数量维数过高,分类精度较低的问题。研究首先确定最优分割尺度,结合Relief F算法和CFS算法分别对先验特征数据集进行优选,最后利用随机森林算法(Random Forest, RF)完成分类。以湖南山地丘陵地区为研究区,在同质性与Moran’s I联合评价的最优分割尺度160基础上,采用优选的特征子集,构造出3种面向对象分类方案。结果表明,经过最优尺度计算、CFS特征优选和机器学习方法的分类结果精度最高,总体精度达到90.3%,Kappa系数达到0.873。证明了该方法适用于山地丘陵地区土地覆盖分类。 In view of the problems that the classification scale of UAV images in mountainous and hilly areas is difficult to determine, the feature quantity dimension is too high, and the classification accuracy is low. The research first determines the optimal segmentation scale, and combines the Relief F algo-rithm and the CFS algorithm to optimize the prior feature data set respectively, and finally uses the Random Forest (RF) algorithm to complete the classification. Taking the mountainous and hilly area of Hunan as the study area, based on the optimal segmentation scale 160 jointly evaluated by ho-mogeneity and Moran’s I, three object-oriented classification schemes were constructed using the optimal feature subset. The results show that the classification results obtained by optimal scale calculation, CFS feature optimization and machine learning method have the highest accuracy, with an overall accuracy of 90.3% and a Kappa coefficient of 0.873. It is proved that the method is suita-ble for land cover classification in mountainous and hilly areas.
针对山地丘陵地区无人机影像分类尺度难以确定,特征数量维数过高,分类精度较低的问题。研究首先确定最优分割尺度,结合Relief F算法和CFS算法分别对先验特征数据集进行优选,最后利用随机森林算法(Random Forest, RF)完成分类。以湖南山地丘陵地区为研究区,在同质性与Moran’s I联合评价的最优分割尺度160基础上,采用优选的特征子集,构造出3种面向对象分类方案。结果表明,经过最优尺度计算、CFS特征优选和机器学习方法的分类结果精度最高,总体精度达到90.3%,Kappa系数达到0.873。证明了该方法适用于山地丘陵地区土地覆盖分类。
丘陵地区,随机森林,Relief F,CFS,多尺度分割
Sen Luo
The First Surveying and Mapping Institute of Hunan Province, Changsha Hunan
Received: Jul. 11th, 2022; accepted: Aug. 4th, 2022; published: Aug. 16th, 2022
In view of the problems that the classification scale of UAV images in mountainous and hilly areas is difficult to determine, the feature quantity dimension is too high, and the classification accuracy is low. The research first determines the optimal segmentation scale, and combines the Relief F algorithm and the CFS algorithm to optimize the prior feature data set respectively, and finally uses the Random Forest (RF) algorithm to complete the classification. Taking the mountainous and hilly area of Hunan as the study area, based on the optimal segmentation scale 160 jointly evaluated by homogeneity and Moran’s I, three object-oriented classification schemes were constructed using the optimal feature subset. The results show that the classification results obtained by optimal scale calculation, CFS feature optimization and machine learning method have the highest accuracy, with an overall accuracy of 90.3% and a Kappa coefficient of 0.873. It is proved that the method is suitable for land cover classification in mountainous and hilly areas.
Keywords:Hilly Area, Random Forest, Relief F, CFS, Multi-Scale Segmentation
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
精准的土地利用信息是土地管理的基础。遥感数据以其易获取、成本低、效率高的特点,被国内外学者广泛应用于结合机器学习算法进行土地利用/分类研究(LUCC) [
无人机相较于卫星影像打破了时间和空间的限制,弥补了其不足。无人机影像有丰富的光谱及纹理特征,但随之而来特征之间信息冗余严重,导致模型复杂度较大,运算效率低,精度较差。因此,对大量的先验特征优选显得尤为重要,其保证分类精度的同时也兼顾降低模型复杂度。已有研究表明特征优选能有效提高模型精度,采用随机森林方法对特征重要性排序,选择重要性较高的特征作为分类特征,能较大地提高湿地植物分类的结果 [
在前人研究基础上,以地物分布复杂,地块破碎的湖南省郴州市桂阳县其中一块区域为研究区。利用无人机正射影像为基础数据,计算最佳面向对象分割尺度,利用Relief F算法和CFS算法分别选择特征输入随机森林机器学习算法完成土地覆盖分类。验证了该方法在混合像元较多的山地地区的适用性。
研究区位于以湖南省郴州市桂阳县,湘江支流的舂陵江中上流,地理位置:25˚59'N,112˚34'E,位置如图1。境内山丘为主,岗平相当,水面较少,山地丘陵面积约占总面积的近四分之三。属于亚热带季风气候,气候温暖,四季分明。研究区主要地物类型有林地、农田和建筑用地等。
数据获取于2022年4月,利用大疆M300 RTK无人机获取研究区无人机影像,该款无人机搭载Zenmouse H20云台,集成2000万像素的变焦相机和1200万的广角相机。获取影像后使用Photoscan软件处理经过导入相片,对影像刺点后对齐照片、生成密集点云,最终生成正射影像(Digital Orthophoto Map, DOM),空间分辨率为0.02 m,影像大小为239,920,374个像元。
图1. 研究区概况
样本的质量直接决定着分类精度的高低,由于研究区位于植被覆盖极其复杂的山地丘陵,只依靠影像确定大范围地表覆盖类型困难。因此2022年4月对实地勘察建立解译标志。实地调查中该地区主要分为林地等植被、农田、裸地、水域、居民地和道路用地六类。根据实地调查样本点与目视解译的样本点共同组成训练样本。研究共采集具有代表性的234个样本点作为训练样本。验证样本使用Arcgis随机产生300个点,目视解译影像确定具体地物类型。训练样本和验证样本分布如图2所示。
图2. 训练/验证样本分布
随机森林算法由Breiman提出,由多颗决策树组成,采用多颗决策树联合进行预测可有效提高模型精度 [
Relief算法最早由Kira提出,最初局限于两类数据的分类问题 [
W ( B ) = W ( B ) − ∑ j = 1 k d i f f ( B , R , H j ) / ( m k ) + ∑ C ∉ c l a s s ( R ) [ p ( C ) 1 − p ( c l a s s ( R ) ) ∑ j = 1 k d i f f ( B , R , M j ( C ) ) ] / ( m k ) (1)
式中, W ( B ) 表示B特征权重, H j 为与R同类样本集中的最近临样本, M j ( C ) 为类别C中不同类样本集中的最近临样本。 d i f f ( B , R 1 , R 2 ) 表示样本 R 1 , R 2 在特征B上的距离。m表示重复的次数。
d i f f ( B , R 1 , R 2 ) = { | R 1 [ B ] − R 2 [ B ] | / ( max ( B ) − min ( B ) ) , B 连 续 0 , B 离 散 且 R 1 [ B ] = R 2 [ B ] 1 , B 离 散 且 R 1 [ B ] ≠ R 2 [ B ] (2)
CFS并不是对单个的特征进行排秩,而是通过特征之间、特征与类别之间的关联性来评价特征的优劣。该算法的核心是采用启发式的方式来评估特征子集,特征子集之间本身不相关,只与类别之间有高度的相关性单个特征预测能力较强。启发方程计算如下:
M e r i t S = k r c f _ k + k ( k − 1 ) r f f _ (3)
式中,S是特征子集,包含k个特征, r c f _ 是平均特征和类之间的相关性, r f f _ 为平均特征与特征之间的相关性。研究采用最佳优先搜索(Best first search)搜索初始特征空间。
无人机影像预处理完成后,对影像进行多尺度分割。面向对象分割尺度过小时,容易出现同一地表覆盖类型分割为多个对象。分割尺度过大时,会出现同一分割对象中包含多种地物。因此选择合适的分割尺度是成功分类的基础。该分割方法是以单个像元为基础,自下而上合并同类相邻像元直到对象异质性达到阈值。分割达到的效果要使对象内部之间有较高的同质性,相邻对象之间有较高的异质性 [
1) 对象内同质性
V b = ∑ i = 1 n a i v i ∑ i = 1 n a i (4)
式中, V b 指在b波段上对象同质性,n是指分割对象的个数, a i 为对象i的面积, v i 指对象i在波段b上的标准差。该值越小,表示面积局部加权方差越小,全局对象内部同质性越高。
2) 对象间异质性
I b = n ∑ i = 1 n ∑ j = 1 n w i j ( y i − y ¯ ) ( y j − y ¯ ) ( ∑ i = 1 n ( y i − y ¯ ) 2 ) ( ∑ i ≠ j ∑ w i j ) (5)
式中, I b 指在b波段上的异质性,n为分割对象总数, w i j 为对象 R i 和 R j 的临接关系(共享边界、结点或者面),若 R i 和 R j 的临接,则 w i j = 1 ,否则 w i j = 0 ; y i 为对象 R i 在波段b上光谱平均值, y ¯ 为整个影像在波段b的光谱平均值,该值越小表示对象间异质性越强。
3) 分割质量评价
将同质性指数和异质性指数做归一化处理:
F ( V ) = V max − V V max − V min (6)
F ( I ) = I max − I I max − I min (7)
G S = ∑ i = 1 n F ( V i ) + F ( I i ) n (8)
式中, V max 、 V min 、 I max 、 I min 为一个波段加权局部方差或莫兰指数的最大最小值。计算出的GS值越小分割质量越好。
研究构建了混淆矩阵,利用总体精度(Overall Accuracy, OA),Kappa系数两个评价指数。
O A = ∑ i = 1 n X i i ∑ i = 1 n ∑ j = 1 n X i j (9)
K a p p a = N ∑ i = 1 n X i i − ∑ i = 1 n ( X i × X + i ) N 2 − ∑ i = 1 n ( X i + + X + i ) (10)
式中,N表示验证样本的个数,n表示分类类别数。总体精度OA表示分类预测精度,Kappa系数是预测结果与训练样本吻合度指标,可以衡量分类结果。
特征的选择直接关系到分类结果的好坏,应保证其能最大限度区分不同地类。本文利用无人机正射影像的RGB波段遥感影像共提取了41个特征,其中自定义特征3个,光谱特征8个,形状特征5个,纹理特征25个。具体初始特征如表1。
特征类别 | 特征名称 | 数量 |
---|---|---|
自定义特征 | VARI、VARIGreen、EXG | 3 |
光谱特征 | Mean_R、Mean_G、Mean_B、Standard_R、Standard_G、Standard_B、Brigthtness、Max.diff | 8 |
形状特征 | Area、Length/Width、Shape_ index、Length、Width | 5 |
纹理特征 | GLCM_ Homogeneity*5、GLCM_ Entropy*5、GLCM _Correlation*5 GLCM_Contrast*5、GLCM_Mean*5 | 25 |
表1. 初始特征
基于Relief F算法对特征重要性排序,研究中保留相关性较强的前20个特征。特征选择如图3。
图3. Relief F特征选择
使用CFS算法对初始特征筛选,得到14个优选特征,如表2。
相较于两种特征选择方法,CFS算法筛选了14个特征,相较于Relief F算法筛选能力较强。从筛选的特征来看,自定义特征和光谱特征有8个、形状特征和纹理特征有6个。山地丘陵地区地物形状特征不明显,形状特征占比较小,而影像的光谱对影像分类贡献大。
特征类别 | 特征名称 | 总计 |
---|---|---|
自定义特征 | VARIGreen、EXG、VARI | 3 |
光谱特征 | Max.diff、Standard_R、Standard_G、Mean B、Brightness | 5 |
形状特征 | Length/Width、Shape index、Area | 3 |
纹理特征 | GLCM_Correlation90、GLCM_Homogeneity0、GLCM_EntropyALL | 3 |
表2. CFS特征选择
影像预处理后,使用Ecognition9.0进行多尺度分割,确定其最优尺度。精准的分割尺度对面向对象分类是一个重点。本次多尺度分割设置R、G、B波段的权重为1:1:1。多山地区地物分布较为破碎,地类之间没形状不明显。因此,形状和颜色的权重分别为0.1,0.9。紧凑度与光滑度共同设置为0.5。研究中以分割尺度20为起点,以20为步长,计算尺度20~220的GS值。由计算结果,分割尺度为160时,分割质量评价指数最小为0.972。为了细化分割尺度,得到最优的结果,研究增加分割尺度150、170,计算得到尺度为160时GS值最小,此时分割效果最好。具体影像分割质量评价如表3。
尺度参数 | GSR | GSG | GSB | 分割质量评价 |
---|---|---|---|---|
20 | 1 | 1 | 1 | 1 |
40 | 1.053 | 0.885 | 1.106 | 1.015 |
60 | 1.066 | 0.888 | 1.139 | 1.031 |
80 | 1.055 | 0.871 | 1.126 | 1.017 |
100 | 1.030 | 0.864 | 1.106 | 1.000 |
120 | 1.010 | 0.870 | 1.068 | 0.983 |
140 | 0.993 | 0.885 | 1.048 | 0.975 |
150 | 0.987 | 0.896 | 1.042 | 0.975 |
160 | 0.979 | 0.897 | 1.041 | 0.972 |
170 | 0.980 | 0.916 | 1.037 | 0.978 |
180 | 0.983 | 0.941 | 1.039 | 0.988 |
200 | 0.993 | 0.964 | 1.007 | 0.988 |
220 | 1 | 1.005 | 1 | 1.002 |
表3. 影像分割质量评价
研究经过特征优选后,以最优尺度160完成多尺度分割,随后确定随机森林数的个数为50完成影像分类。实验构建了三种模型对比试验。模型A:没有特征优选,选择全部的41个自定义特征、光谱特征、形状特征和纹理特征,以采集的234个训练样本在随机森林算法下完成实验。分类结果如图4(a)。模型B:原始特征经过Relief F算法优选后,选择优选的20个特征,加入采集的原始的训练样本完成随机森林分类。分类结果如图4(b)。模型C:原始特征经过CFS算法优选后,选择优选的14个特征,加入采集的原始的训练样本完成随机森林分类。最后合并分类结果。分类结果如图4(c)。
图4. 不同模型及处理方法分类结果
使用Arcgis生成随机点工具生成300个点作为验证点,对比无人机影像目视解译对每个点赋类。利用验证点与预测分类结果在Arcgis中建立空间连接,计算分类结果的精度。如表4。
模型A | 模型B | 模型C | ||||||
---|---|---|---|---|---|---|---|---|
生产者精 度(PA) | 用户精度(UA) | 生产者精 度(PA) | 用户精度(UA) | 生产者精 度(PA) | 用户精度(UA) | |||
居民地 | 0.82 | 0.95 | 0.86 | 0.97 | 0.92 | 0.97 | ||
农田 | 0.67 | 0.67 | 0.89 | 0.73 | 0.89 | 0.84 | ||
林地及其他植被 | 0.79 | 0.76 | 0.79 | 0.87 | 0.88 | 0.89 | ||
裸地 | 0.97 | 0.97 | 0.97 | 0.97 | 0.97 | 0.97 | ||
道路 | 0.87 | 0.87 | 0.87 | 0.87 | 0.87 | 0.87 | ||
水域 | 1.00 | 0.57 | 1.00 | 0.73 | 1.00 | 0.89 | ||
总分类精度 | 0.803 | 0.860 | 0.903 | |||||
Kappa系数 | 0.743 | 0.818 | 0.873 |
表4. 模型精度对比
从表4中可以看出,基于CFS特征优选的模型C精度最高。模型A、B、C的总体分类精度OA分别为80.3%、86%和90.3%,Kappa系数分别为0.743、0.818和0.873。相较于模型A与模型B,模型C总体精度分别高10%和4.3%,Kappa系数分别高0.13和0.055。模型B与模型C经过特征优选后,对比模型A,6类地表覆盖类型都有不同程度的提高,其中农田和林地等其他植被用户精度提升幅度较大都为1%左右。说明了特征优选除了减少运算时间外,还能有效的增加分类的精度。模型B与模型C经过Relief F算法和CFS特征优选,所用的特征数量一样,模型C采用的特征较少,但特征更适宜于分类,总体精度与Kappa有一定的提升,在农田和林地及其他植被土地利用类型上用户精度提升较大。说明了CFS特征选择算法选择的特征能有效避免已分类地物对未分地物的干扰。综上所述,本次研究提出的选择最优分割尺度160结合CFS特征选择算法获得了最高的分类精度,证明了该方法能有效的应用于地类分布不规则且及其破碎的山地丘陵地区。
本文以无人机影像为基础数据,通过面向对象多尺度分割,Relief F算法和CFS算法分别筛选特征子集,最后以随机森林机器学习算法完成了研究区面向对象影像分类,事实证明本文提出的方法适用于该地区影像分类。研究得出以下结论:
1) 对遥感影像的41个分类特征利用Relief F算法特征优选,在训练/验证样本一样的情况下,能有效地提高分类精度和分类效率。研究中Relief F算法特征优选后的模型B比原始特征集的模型A总体精度提升了5.7%,Kappa提升了0.075。
2) 对遥感影像初始41维特征利用CFS算法进行筛选,相较于Relief F算法筛选的特征子集,CFS算法筛选能力更强,筛选的特征对不同地物的描述更为准确,模型更为简单,分类精度更高。在三种模型中,模型C总体精度最高达到。
3) 多尺度分割是面向对象分类的基础,能有效的避免“椒盐现象”。文章采用同质性与异质性指数对分割质量评价,得出了分割尺度为160时,分割质量最优。该种方法能最大限度减少人工目视的主观性。
罗 森. 基于无人机影像特征优选的山地地区植被分类Vegetation Classification in Mountainous Areas Based on UAV Image Feature Selection[J]. 应用数学进展, 2022, 11(08): 5692-5701. https://doi.org/10.12677/AAM.2022.118601
https://doi.org/10.3390/rs12010162
https://doi.org/10.1016/j.isprsjprs.2011.11.002
https://doi.org/10.1016/j.cageo.2013.10.008
https://doi.org/10.1016/j.jag.2009.11.002
https://doi.org/10.1016/j.isprsjprs.2012.04.001
https://doi.org/10.1080/01431161.2013.845317
https://doi.org/10.18402/resci.2019.05.15
https://doi.org/10.1016/S0924-2716(02)00162-4