Research on the Spatial Distribution of Soil Organic Carbon Storage in the Kamalan River Basin Based on the Random Forest Model
Soil organic carbon stocks in the forested areas of Great Khingan are of great significance for the study of regional carbon source and sink changes and climate response. In this paper, based on soil profile data and combining multiple environmental variables, we estimated the soil organic carbon stock (SOCS) and its spatial distribution characteristics at 0~30 cm depth in the Kamalan River watershed of Great Khingan by using the random forest (RF) model. The results showed that the RF model (R 2= 0.75, RMSE = 6.81) performed well in simulation details for small-scale areas, and the SOCS at 0~30 cm in the study area was mainly distributed along the river with relatively flat topography, which was basically consistent with the river course. The results of the study yielded a relatively accurate characterisation of the surface soil organic carbon stock and spatial distribution in the Kamalan River basin, which can enrich the understanding of soil organic carbon stock in the perennial permafrost region of the Great Khingan and provide data support for simulation studies related to ecological processes.
Great Khingan
土壤作为陆地生态系统的重要组成部分,承载着地球上最为庞大且周转时间最长的有机碳库
随着卫星遥感技术和机器学习技术的快速发展,基于土壤剖面数据和多环境因子的模型方法为土壤有机碳的估算带来了新的机遇
大兴安岭多年冻土区,作为我国第二大的多年冻土区,仅次于青藏高原多年冻土区
综合考虑研究区道路通达性和采样均匀性,使用标准环刀获取土壤剖面样品,每层取3个重复样,并同步收集坡度、海拔、地势和森林类型等环境要素数据。采集的土壤样品在野外及时烘干处理,计算每个样点不同深度土壤容重(BD)。在实验室内对采样土壤进行研磨过筛等处理,用于测量土壤有机碳含量(SOC),并利用公式(1)计算土壤有机碳密度(SOCD)。
本研究所采用的有机碳密度SOCDi(kg/m2)为
(1)
式中: 代表第i层土壤有机碳含量(g/kg), 代表第i层土壤容重(g/cm3), 代表第i层土壤(cm), 代表第i层土壤中大于2 mm砾石的体积百分比(%)。
若某一土壤剖面由j层采样土层组成,那么此剖面的有机碳储量SOCS (kg)为
(2)
式中;SOCS代表剖面有机碳储量(kg),Si代表i层土壤中与有机碳密度一一对应的实地面积,j代表该剖面的采样层数。
数字高程模型(DEM)来自地理空间数据云(
遥感影像使用Landsat8 OLI/TIRS C2 L2,该数据来自于美国航空航天局(NASA)和美国地质调查局(USGS)的官方网站(
年均温(MAT)和年降雨(MAP)气象数据根据彭守璋
随机森林(RF)算法是一种非参数方法,它由大量训练样本生成的个体决策树组成
本研究使用ArcGIS Pro 2.3中的RF模块估计SOCS空间分布特征,参数设置为:1700棵树量,5个叶子节点,和4~18树深范围,并设置每棵树可用65%的数据量,以总数据的10%作为验证数据集。
本次实验得到的相关性分析结果均采用皮尔逊相关系数(Pearson correlation coefficient)。两个变量之间的协方差与标准差之商,即为两者间的皮尔逊相关系数,其公式如下:
(3)
方差膨胀因子(VIF)是用于评估多元线性回归模型中多重共线性程度的指标。它是存在多重共线性时解释变量方差与不存在多重共线性时解释变量方差的比值
(4)
式中:
表示第i个自变量的VIF值,
表示该自变量在其他自变量线性组合中的R方。VIF值从1开始,没有上限。VIF的值为1表示给定解释变量与模型中的任何其他解释变量之间不存在相关性。1到5之间的值表示给定解释变量与模型中的其他解释变量之间存在中等相关性,但通常没有严重到需要特别注意的程度。大于5的值表示给定解释变量与模型中的其他解释变量之间可能存在严重相关性。在这种情况下,回归结果中的系数估计和p值可能不可靠
为了验证模型预测结果的准确性,采用决定系数(R2)、均方根误差(RMSE)来评价精度
(5)
(6)
其中 为土壤有机碳密度的平均值, 为土壤有机碳密度的预测值, 为土壤有机碳密度的实测值,n为样点数量。
统计结果表明土壤表层的SOC含量范围为5.81至415.69 g/kg之间,平均值为68.19 g/kg。BD是直接反映土壤松紧程度的一项物理指标,在理论及生产实践中具有多方面的实用意义,其数值大小与土壤质地、结构、松紧和有机质含量等有关。本研究区表层腐殖质含量高,土壤容重较低,土壤孔隙度大,导致表层土壤在干湿交替过程中,水分条件有利于从物理变化方面抑制土壤有机碳的分解
变量名 | 均值 | 最小值 | 最大值 | 标准差 | 变异系数 |
SOC (g/kg) | 68.19 | 5.81 | 415.69 | 80.27 | 1.18 |
BD (g/cm3) | 0.72 | 0.12 | 1.83 | 0.30 | 0.42 |
SOCD (kg/m2) | 9.83 | 1.39 | 35.98 | 6.91 | 0.70 |
RF模型结合多源辅助变量预测表层土壤有机碳储量具有较高精度,模型拟合R2为0.75,RMSE为6.81,模型能够适用于环境复杂的大兴安岭多年冻土区。通过随机森林回归建模处理分析,得到表层土壤有机碳储量空间分布数据。
土壤有机碳储量整体呈现随坡度的增加而降低,阴坡高于阳坡的趋势。地势平坦且靠近河岸的区域土壤有机碳含量较高,这是由于河流沿岸土壤含水量较高,有助于土壤有机碳的固存
本研究使用RF模型对卡马兰河流域多年冻土区的土壤碳储量进行预测,并分析了环境因子对土壤有机碳储量的影响。主要发现如下:
1) 通过对采样点数据汇总,得到SOC含量介于5.81至415.690 g/kg之间,平均值为68.19 g/kg,属于较高水平。研究区的SOC空间变异性很强且分布不均,这主要是土壤物理、化学和地形等环境变量的差异性导致的。
2) 影响研究区SOCS空间分布的主要环境因子是地形因子。海拔相对较高、坡度较大的区域的SOCS较低,且阴坡明显高于阳坡。
3) 预测精度方面,RF模型(R2= 0.75, RMSE = 6.81)对小尺度区域的细节表现较好,很好地展现了小尺度流域SOCS分布的精细特征。
这些发现不仅深化了对多年冻土区碳循环机制的理解,也为区域生态环境保护、资源可持续利用及应对气候变化提供了科学依据。本研究为政策制定者、环境管理者及科研人员提供了宝贵的参考信息,有助于推动区域可持续发展战略的实施,也将为卡马兰河流域多年冻土区的区域性碳循环研究提供重要的参考。