极速滚球-beplay滚球玩法刺激-beplay体育官网网页版等您来挑战！

Statistics and Application

2325-2251 2325-226X

beplay体育官网网页版等您来挑战！

10.12677/sa.2024.134144

sa-95117

Articles

数学与物理

基于GAS-CE-LGBM的“一带一路”指数收益率预测研究
Research on the Yield Prediction of the “Belt and Road” Index Based on GAS-CE-LGBM

徐泽晖

浙江财经大学数据科学学院，浙江杭州

05 08 2024

13 04 1431 1441 23 7 ：2024 14 7 ：2024 14 8 ：2024

2024

This work is licensed under the Creative Commons Attribution International License (CC BY). http://creativecommons.org/licenses/by/4.0/

研究“一带一路”指数收益率有助于投资者和政策制定者更好地理解和规划“一带一路”倡议相关的金融市场趋势，以支持有效的投资决策和制定经济政策，但由于其复杂性和非线性特征，传统的预测方法可能无法充分捕捉其动态变化。为了解决这一问题，本文提出了一种结合广义自回归得分(Generalized Autoregressive Score, GAS)模型、Copula熵(Copula Entropy, CE)特征选择和监督学习集成模型——轻量梯度提升机(Light Gradient Boosting Machine, LightGBM)模型的综合预测框架(Generalized Autoregressive Score-Copula Entropy-Light Gradient Boosting Machine, GAS-CE-LGBM)。首先，构建“一带一路”指数收益率的GAS波动率模型并估计参数；其次，计算“一带一路”指数及其成分股相应的Copula熵，并通过阈值进行筛选；最后，将所得成分股信息与GAS模型参数构成数据集输入LightGBM模型中建模预测。实验结果表明，GAS-CE-LGBM模型相较多层感知器神经网络(Multilayer Perceptron, MLP)、LightGBM、GARCH-LGBM (Generalized Autoregressive Conditional Heteroskedasticity-Light Gradient Boosting Machine)和GAS-LGBM (Generalized Autoregressive Score-Light Gradient Boosting Machine)模型在RMSE、MAE、MAPE和R ²四个评估指标上表现最佳，RMSE、MAE和MAPE分别平均降低了19.09%、19.81%、62.48%，R ²平均提高了12.05%。这表明该模型在“一带一路”指数的预测方面展现了良好的性能和潜力，能更好地捕捉到“一带一路”指数收益率的动态变化。
Studying the returns of the “Belt and Road” index contributes to a better understanding and planning for investors and policymakers regarding the financial market trends associated with the “Belt and Road” Initiative. This understanding supports effective investment decisions and economic policy formulation. However, due to its complexity and non-linear characteristics, traditional forecasting methods might not adequately capture its dynamic changes. To address this issue, this paper proposes a comprehensive predictive framework, the Generalized Autoregressive Score-Copula Entropy-Light Gradient Boosting Machine (GAS-CE-LGBM) model, which combines the Generalized Autoregressive Score (GAS) model, Copula Entropy (CE) feature selection and supervised learning ensemble model—Light Gradient Boosting Machine (LightGBM). First, build the volatility GAS model of the return rate of the “Belt and Road” index and estimate the parameters. Secondly, calculate the corresponding Copula entropy of the “Belt and Road” index and its constituent stocks and filter through the threshold. Finally, input the data set of constituent stock information and GAS model parameters into the LightGBM model for modeling and forecasting. Experimental results demonstrate that the GAS-CE-LGBM model outperforms Multilayer Perceptron (MLP), LightGBM, GARCH-LGBM (Generalized Autoregressive Conditional Heteroskedasticity-Light Gradient Boosting Machine), and GAS-LGBM (Generalized Autoregressive Score-Light Gradient Boosting Machine) models in four evaluation metrics: RMSE, MAE, MAPE and R ². On average, RMSE, MAE, and MAPE decrease by 19.09%, 19.81%, and 62.48%, respectively, while R ²increases by 12.05%. This indicates that the model exhibits strong performance and potential in forecasting the “Belt and Road” index, capturing the dynamic changes in the returns of the “Belt and Road” index more effectively.

GAS，LightGBM，Copula熵，“一带一路”
GAS
LightGBM Copula Entropy “Belt and Road”

1. 引言

随着“一带一路”倡议的推进和全球贸易的不断增长，对于“一带一路”指数的预测和分析变得越来越重要。“一带一路”指数代表了参与“一带一路”倡议的相关国家和地区经济发展的整体趋势和表现。准确预测“一带一路”指数的变化对于政府决策、投资战略和风险管理具有重要意义。“一带一路”指数受到多个行业和公司的影响，这些公司可能会在项目中扮演关键角色，因此这些公司的股票表现可能会对“一带一路”指数趋势产生一定影响。传统的时间序列预测方法在面对复杂的金融市场和多元数据关系时存在一定的局限性。为解决此问题，研究者们将Copula模型引入金融数据建模领域。Copula模型能够有效地捕捉多变量之间的依赖关系，从而更精确地描述金融市场中的相关性和联动效应。另一方面，GAS模型能够捕捉数据中的波动性变化，即条件异方差性，这是许多金融时间序列数据的典型特征。与此同时，LightGBM是一种强大的机器学习算法，特别适用于高维数据和大规模数据集的预测任务，是一种基于树的集成学习方法，旨在提高预测性能并减少计算成本。

然而，现有研究大多将GAS、Copula和LightGBM模型作为独立的部分，缺乏融合三者的深入探究。基于此，本文旨在将GAS和LightGBM模型结合得到GAS-LGBM模型，以期探索金融市场的波动性变化，进而通过Copula模型，计算Copula熵进行特征筛选，构建预测模型GAS-CE-LGBM，以更全面地挖掘数据中的信息，捕捉多变量关系，提升模型的预测性能，从而改进“一带一路”指数的预测精度。

2. 文献综述

目前，针对金融数据的预测，主要研究方法包括传统的统计模型和机器学习模型，以及近年来兴起的深度学习模型，这些方法在不同的研究中得到了应用，并取得了一定的预测效果。Creal等(2012)提出GAS理论，将时间序列的时变参数模型放在统一框架下，得到了广泛关注，并应用于众多领域，较传统GARCH族模型具有更优预测性能 [1] 。De Lira Salvatierra和Patton (2015)将由高频数据得到的已实现相关系数和已实现波动率嵌入到GAS模型，得到Realized-GAS (GRAS)模型，显著提高了分布在样本内拟合优度和样本外预测能力 [2] 。王天一和黄卓(2015)提出的Realized GAS-GARCH模型对标的资产波动率的预测比Realized GARCH模型更佳 [3] 。沈根祥和邹欣悦(2019)得到GAS-HEAVY模型对RV分布特征的捕捉更为灵活，在不同的损失函数评价标准下，明显优于其他竞争模型，对指数波动变化的描述更接近实际 [4] 。潘琛(2022)利用2015年1月的上证指数数据，通过五折交叉检验来训练LightGBM模型，得到了良好的预测能力 [5] 。牛晓楠(2022)在沪深300股指期货价格预测中，发现LightGBM模型能很好地刻画股指期货价格的趋势 [6] 。曾海潇(2023)对新能源股票价格构建GRU、VAR和LightGBM模型，验证了LightGBM模型的优越性 [7] 。

最近，一些学者思考将传统统计模型和机器学习模型相结合，以提高时间序列预测的准确性和鲁棒性，并取得了一定的研究成果。Kim和Won (2018)将LSTM和GARCH族模型联合，提出了一种新的混合模型用于股价波动性的预测，实验表明，该模型的预测精度优于LSTM [8] 。宁苡鹤(2018)提出的Copula-ANN模型对于纽约交易所电力板块共计30支股票的预测结果具有较高的预测精度，从统计指标和财务指标两方面均验证了模型的有效性 [9] 。Zeng等(2020)提出使用GARCH族模型参数作为波动率的影响因素，并通过XGBoost算法筛选特征，输入LSTM网络中进行波动率预测，取得了优良的预测效果 [10] 。李筱艺和王传美(2022)设计出依据动态相关性大小自动优化输入特征的GAS-Copula-XGBoost模型，应用于“一带一路”指数预测研究，预测精度较BP神经网络、SVR和XGBoost模型有显著提升 [11] 。

此外，特征选择是从给定的特征集中选择最相关和最具信息量特征的过程。通过特征选择，可以去除冗余和噪声特征，提高模型的鲁棒性，同时提供更好的可解释性和洞察力。传统特征选择方法虽然在某些情况下有效但存在缺陷，尤其对于复杂数据和高维特征空间问题，其精确性和稳定性可能受到限制，且通常由于线性假设，无法捕捉变量之间复杂的非线性依赖关系。为此，在特征选择领域，Copula理论引起了一些学者的关注和研究。马健(2021)在Ma和Sun (2011) [12] 的基础上，提出了Copula熵特征选择方法，实验结果表明，与传统方法相比，该方法采用非参数方法，不依赖于特定的分布假设，使得该方法在处理不同类型的数据时具有普适性和灵活性 [13] 。陈璐等(2014)基于Copula熵筛选预报因子构造神经网络径流预报模型，结果表明，该方法预测精度相较传统方法更高，且能够切实可靠地找出相关性变量，对线性相关和非线性相关均适用 [14] 。陈燕璇等(2019)借助Copula熵筛选与台风灾情显著相关的影响因子，结果表明，Copula熵影响因子选取的灾情预测模型的拟合优度和预测精度更高 [15] 。Mesiar和Sheikhi (2021)提出了一种基于Copula的非线性随机森林分类方法，在COVID-19和糖尿病数据中的实验表明，该方法能够选择出最相关的特征，并具有较高的分类精度 [16] 。李艳玲和巩雅杰(2022)在Copula熵的基础上，根据Hampel准则选择干旱因子，构建LSTM神经网络预测模型，获得了较高的预测精度 [17] 。Liu等(2022)将Copula熵特征选择方法应用于电力系统频率稳定性的预测，通过构造具有固定维度的类图像数据并去除冗余信息，提高了预测精度 [18] 。Xiong和Qing (2023)引入了一种基于Copula的自适应特征选择算法(ACBFS)，同时连结长短期记忆(LSTM)模型，研究结果表明，所提出的混合算法在电力价格预测方面具有更优良的效果和实用性 [19] 。

综上所述，先前的研究已经为GAS-CE-LGBM模型的构建与应用提供了一定基础，为本文的设计和实施提供了宝贵的经验和参考。然而，针对传统统计模型结合机器学习进行“一带一路”指数的预测研究还相对较少，本文将在此基础上进一步探索和完善该模型的应用，以提高“一带一路”指数的预测准确性和稳健性。

3. 模型理论 3.1. GAS模型

若收益率序列 $y_{t} \sim p (y_{t} | f_{t}, F_{t}; θ)$ ，其中， $f_{t}$ 是随时间变化的模型参数， $F_{t}$ 表示序列 $y_{t}$ 在t时刻的信息集，而 $θ$ 是不随时间变化的静态参数， $S_{t}$ 由Fisher信息矩阵构造。 $f_{t}$ 的时变演化模式采用比例得分向量驱动的自回归形式，具体如下：

$f_{t} = ω + \sum_{i = 1}^{p} A_{i} s_{t - i} + \sum_{j = 1}^{q} B_{j} f_{t - j}$ (1)

$s_{t} = S_{t} \cdot \nabla_{t}$ (2)

$\nabla_{t} = \frac{\partial \ln p (y_{t} | f_{t}, F_{t}; θ)}{\partial f_{t}}$ (3)

$S_{t} = {[E_{t - 1} (\nabla_{t} {\nabla^{'}}_{t})]}^{- 1 / 2}$ (4)

3.2. 基于Copula熵的相关性度量

Copula熵是一种基于Copula函数和信息熵概念的熵度量，测度Copula函数的复杂性、非线性程度及变量之间的非线性依赖关系。现令 $X$ 的边际分布为 $u$ ， $c (u)$ 为Copula密度函数，则 $X$ 的Copula熵定义如下：

$H_{c} (X) = - \int_{u} c (u) \log c (u) d u$ (5)

Copula熵的值表示变量之间的依赖关系和非线性关系，随机变量的互信息(Mutual Information, MI)等于其对应Copula函数的负熵 [12] ：

$I (x) = - H_{c} (x)$ (6)

与传统的熵度量方法不同，Copula熵能够精准刻画变量之间的关联性，不受变量边缘分布的影响。通过计算变量的Copula熵，我们可以评估变量之间的依赖强度和非线性关系程度，进而辅助特征选择过程。

3.3. LightGBM模型简介

LightGBM是一种基于梯度提升框架的机器学习模型，广泛用于解决分类和回归问题。LightGBM以其卓越的性能、高效的训练速度和能够处理大规模高维数据集的能力而闻名。LightGBM的工作原理是梯度提升算法，其主要思想是通过迭代的方式，逐步提升多个弱分类器的性能，从而构建一个强大的集成模型。LightGBM与传统的梯度提升决策树(Gradient Boosting Decision Tree, GBDT)相比具有一些独特的优势。首先，LightGBM使用了直方图算法处理数据，意味着将数据集划分为直方图，并在每个直方图上进行分裂，而不是在每个数据点上分裂，大大减少了内存占用和计算复杂度，使其能够高效地处理大规模数据集。其次，LightGBM引入了高效的叶子生长策略，它采用了叶子中的最大值和最小值来进行分裂，从而减小了损失函数的梯度估计误差，提高了模型的性能。此外，LightGBM还支持类别特征的处理，能够自动将类别特征转换为数值特征，无需独热编码(One-Hot Encoding)等繁琐的预处理步骤。

简言之，LightGBM的优点包括了出色的预测性能、高效的训练速度和对大规模高维数据的适应能力。因此，本文选择了LightGBM作为“一带一路”收益率预测的基本模型，与MLP模型进行对比，并通过实验验证了其在处理高维数据集上的卓越表现。

3.4. GAS-CE-LGBM模型的原理和架构

GAS-CE-LGBM模型是一种将GAS模型、Copula熵特征筛选以及LightGBM模型融汇而成的框架。该模型的核心思想是通过GAS模型对“一带一路”指数的波动性进行建模和度量，然后根据Copula熵作为相关性度量选择输入特征，联系历史信息特征，将这些特征作为LightGBM模型的输入进行训练和预测。以下是GAS-CE-LGBM模型的原理和架构：

4. 实证分析 4.1. 数据来源

数据来源于东方财富Choice终端，数据处理使用Python 3.8和R 4.2.2。选取中证“一带一路”指数(代码为399991)，样本期为2020年1月2日~2023年8月1日，选取纳入日期在2020年之前的成分股，计算各成分股收益率，填补缺失值，删除存在过多缺失值的样本后，共包含867个样本数据，58支适用成分股，共60个特征，包含“一带一路”指数的历史信息和相关58支成分股的历史收益率数据，如表1 所示。“一带一路”指数的对数收益率为预测目标，用BRI表示。

Table 1 <xref></xref>Table 1. Dataset and symbolic representationTable 1. Dataset and symbolic representation 表1. 数据集与符号表示

类别	名称	符号表示
成分股收益率	[中国中免，万华化学等]	[x1, ∙∙∙, x58]
历史信息	[成交量，成交额]	[x59, x60]
目标变量	“一带一路”指数对数收益率	BRI

为更好地研究“一带一路”指数与相应成分股收益率的具体情况，需要对预处理数据的描述性特征进行进一步分析，如表2 所示。由于成分股数量过多，后文的图表信息仅给出部分结果。观察统计分析值发现，大多收益率序列JB统计量值较高，表明它们的分布不是正态的。同时，大多数成分股收益率的偏度接近0，峰度大于3，说明样本数据普遍具有尖峰厚尾特征。单位根检验的结果表明，所有样本数据都是平稳序列，可以进行下一步实验。

Table 2 <xref></xref>Table 2. Descriptive statistical information of data (excerpt)Table 2. Descriptive statistical information of data (excerpt) 表2. 数据描述性统计信息(节选)

名称	ADF	偏度	峰度	JB统计量
BRI	−29.568	−0.586	4.916	922.473
中国中免	−29.792	0.126	1.105	46.382
万华化学	−30.209	0.279	1.341	76.137
中兴通讯	−30.002	0.313	2.538	246.971
三一重工	−22.353	0.382	1.828	141.769
紫金矿业	−28.273	0.154	1.271	61.782
特变电工	−30.617	−0.997	15.517	8841.698
国电南瑞	−16.580	−0.941	8.645	2827.887
中国建筑	−14.249	0.534	3.583	505.094
海螺水泥	−29.320	0.496	3.363	444.219
中国中车	−30.277	0.715	7.639	2182.068

由表2 的JB统计量可知，BRI显然不服从正态分布，BRI的具体分布如图1 所示。为了进一步确定BRI的分布，假设数据服从t分布并对其拟合，得到自由度为5.47。对其进行K-S检验，结果如表3 所示。

Table 3 <xref></xref>Table 3. K-S test resultTable 3. K-S test result 表3. K-S检验结果

显著性水平	K-S统计量	P值
0.05	0.015	0.988

为了检验“一带一路”指数收益率是否存在异方差性，采用ARCH-LM检验。检验结果如表4 所示，P值小于0.05，由此可以判断收益率序列存在异方差性。

Table 4 <xref></xref>Table 4. ARCH-LM test resultTable 4. ARCH-LM test result 表4. ARCH-LM检验结果

显著性水平	χ²统计量	自由度	P值
0.05	24.568	12	0.017

4.2. GAS模型构建与参数估计

根据K-S检验的结果，我们可以认为BRI服从自由度为5.47的t分布。t分布能灵活地捕捉厚尾特征，故拟合波动率模型是t分布的GAS(1, 1)模型。“一带一路”指数的变化具有一定波动性，因此在估计波动模型的参数时，不使用固定参数来解释收益率的波动，而是将滑动估计的参数值作为影响收益率波动的因素 [20] 。

Figure 1 Figure 1. Sliding estimation process--图1. 滑动估计过程-- 4.3. Copula模型构建与Copula熵计算

运用R语言对“一带一路”指数收益率和58支成分股收益率进行Copula建模，选用正态、t、Gumbel、Frank和Clayton Copula，根据AIC准则选出最合适的Copula模型，如表5 所示。

Table 5 <xref></xref>Table 5. Copula model between BRI and component stocks (excerpt)Table 5. Copula model between BRI and component stocks (excerpt) 表5. BRI与成分股对应的Copula模型(节选)

BRI-成分股	类型	模型参数	自由度
BRI-辽港股份	t	0.387	6.437
BRI-包钢股份	t	0.537	14.995
BRI-上海建工	t	0.213	4.88
BRI-中国中冶	t	0.622	5.799
BRI-中国中车	Gumbel	1.69	0
BRI-中国重工	Gumbel	1.679	0
BRI-江西铜业	t	0.49	7.888
BRI-中国通号	t	0.618	7.769
BRI-中国铁建	t	0.594	6.856
BRI-中国电建	t	0.707	5.126

然后由式(5)和式(6)可以计算得到各成分股收益率和“一带一路”指数收益率之间的Copula熵值，列于表6 。明显看到辽港股份与BRI之间的Copula熵值与其他组别相差很大，故选择0.5作为第一个阈值，随后每次更新0.05来循环步骤4设计的程序。

Table 6 <xref></xref>Table 6. Copula entropy values of BRI and component stocks (excerpt)Table 6. Copula entropy values of BRI and component stocks (excerpt) 表6. BRI与成分股对应的Copula熵值(节选)

BRI-成分股	Copula熵绝对值
BRI-辽港股份	0.9241
BRI-包钢股份	0.4919
BRI-上海建工	0.4592

续表

BRI-中国中冶	0.4067
BRI-中国中车	0.3312
BRI-中国重工	0.3064
BRI-江西铜业	0.2792
BRI-中国通号	0.2699
BRI-中国铁建	0.2674
BRI-中国电建	0.2645

4.4. 拟合结果分析

以下四个误差指标用于评估模型的预测性能：均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和R²。指标的计算公式如式(7)~(10)所示：

$RMSE = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} {({\hat{y}}_{i} - y_{i})}^{2}}$ (7)

$MAE = \frac{1}{n} \sum_{i = 1}^{n} | {\hat{y}}_{i} - y_{i} |$ (8)

$MAPE = \frac{100 %}{n} \sum_{i = 1}^{n} | \frac{{\hat{y}}_{i} - y_{i}}{y_{i}} |$ (9)

$R^{2} = 1 - \frac{\sum_{i = 1}^{n} {(y_{i} - {\hat{y}}_{i})}^{2}}{\sum_{i = 1}^{n} {(y_{i} - \bar{y})}^{2}}$ (10)

其中， ${\hat{y}}_{i}$ 是预测值， $y_{i}$ 是真实值， $\bar{y}$ 是样本均值，n是测试的样本数量。RMSE和MAE的值越小，MAPE越收敛接近于0%，R²越接近于1，意味着模型的预测性能越好。

表7 为通过阈值筛选后的不同特征输入到LightGBM模型中的拟合结果。当阈值为0.35时，筛选结果没有发生任何变化；当阈值为0.30时，共入选54个特征因子，此时MAE、RMSE和MAPE三项误差值达到最小，R²达到最大。此后再更新阈值，误差结果会越来越大，R²也随之减小。

Table 7 <xref></xref>Table 7. Feature screening resultsTable 7. Feature screening results 表7. 特征筛选结果

阈值	特征个数	RMSE	MAPE	R²
0.50	59	0.00288	2.455%	0.912
0.45	57	0.00281	2.543%	0.917
0.40	56	0.00302	1.696%	0.903
0.35	56	0.00302	1.696%	0.903
0.30	54	0.00275	1.019%	0.920
0.25	50	0.00318	1.716%	0.893
0.20	42	0.00309	1.657%	0.898

续表

0.15	32	0.00577	2.594%	0.648
0.10	24	0.00750	2.568%	0.405
0.05	14	0.00826	4.041%	0.278

4.5. 预测结果分析

首先，当实验不考虑特征筛选时，我们将所有成分股的收益率作为特征输入到不同的模型中进行预测，预测结果如表8 所示。实验结果显示，在RMSE、MAE、MAPE和R²上，LightGBM模型的表现均明显优于MLP。这也验证了LightGBM模型对于高维数据的处理效果很好，而神经网络模型在处理高维数据上存在着一定的局限性。

其次，为了验证合适的波动因子作为输入特征在提高预测精度方面是有效的，将分别运用GARCH(1, 1)和GAS(1, 1)模型拟合收益率波动性，将模型参数输入到LightGBM得到GARCH-LGBM和GAS-LGBM模型，预测收益率波动性。预测结果表明，输入参数增强了模型的预测能力。具体地，根据RMSE、MAE和MAPE三个误差指标，模型的预测能力皆被排序为GAS-LGBM、GARCH-LGBM和LightGBM，其中RMSE最低为0.00282，MAE最低为0.00221，MAPE最低为2.38%。根据R²，模型的预测能力排名仍为GAS-LGBM、GARCH-LGBM和LightGBM，其中GAS-LGBM的R²最高为0.916。总体而言，MAE反映了绝对的误差，而RMSE表示了平均偏差的程度。因此，无论从最小化最大误差的角度，还是从模型的拟合度来看，GAS-LGBM都比GARCH-LGBM和LightGBM模型具有更佳的预测效果。

最后，当实验考虑选择输入特征时，通过Copula熵以及阈值筛选的方法最终确定54个有效特征时模型预测能力最佳。根据RMSE、MAE和MAPE来看，GAS-CE-LGBM分别为0.00274%、0.00208%和1.02%，均为最小值。GAS-CE-LGBM的R²为0.920，是所有模型中最高的。预测结果表明，使用Copula熵进行特征筛选能有效提高模型的整体预测精度与拟合度。

Table 8 <xref></xref>Table 8. Model prediction resultsTable 8. Model prediction results 表8. 模型预测结果

模型	RMSE	MAE	MAPE	R²
MLP	0.00582	0.00407	3.12%	0.641
LightGBM	0.00310	0.00240	3.07%	0.898
GARCH-LGBM	0.00301	0.00234	2.47%	0.904
GAS-LGBM	0.00282	0.00221	2.38%	0.916
GAS-CE-LGBM	0.00274	0.00208	1.02%	0.920

上述不同模型的预测结果表明，结合GAS滑动时变系数的LightGBM预测模型具有更好的预测精度和结果。较其他四个模型，GAS-CE-LGBM模型评估指标RMSE、MAE、MAPE和R²的变化百分比如表9 所示。相对于MLP模型，分别降低了52.92%、48.89%和67.31%，而R²提高了43.53%；对于没有考虑波动率的LightGBM模型来说，分别降低了11.61%、13.33%和66.78%，R²提高了2.45%；相对于GARCH-LGBM模型，分别降低了8.97%、11.11%和58.70%，R²增加了1.77%。在没有考虑特征筛选的GAS-LGBM模型上，分别下降了2.84%、5.88%和57.14%，R²增加了0.44%。

Table 9 <xref></xref>Table 9. Percentage change in model evaluation indicatorsTable 9. Percentage change in model evaluation indicators 表9. 模型评估指标变化百分比

模型	RMSE变化	MAE变化	MAPE变化	R²变化
MLP	−52.92%	−48.89%	−67.31%	+43.53%
LightGBM	−11.61%	−13.33%	−66.78%	+2.45%
GARCH-LGBM	−8.97%	−11.11%	−58.70%	+1.77%
GAS-LGBM	−2.84%	−5.88%	−57.14%	+0.44%
GAS-CE-LGBM	0	0	0	0

图2 展示了不同模型的预测结果，其中Test Data表示真实值。总体而言，与其他四个模型相比，GAS-CE-LGBM模型在RMSE、MAE、MAPE和R²四个评估指标上表现最出色，RMSE、MAE和MAPE分别平均降低了19.09%、19.81%、62.48%，R²平均提高了12.05%。

Figure 2 Figure 2. Prediction result--图2. 预测结果--

上述这些结果进一步表明，过多的输入特征会对预测产生负面影响，适量的输入特征会对预测产生积极影响。另一方面，GAS模型可以有效地表征负载的波动，将GAS模型的参数作为输入特征可以有效地提高预测精度，且效果优于GARCH模型。

5. 总结

本文旨在探究“一带一路”收益率的预测模型，综合采用了多种模型和方法，包括LightGBM、MLP，联合GARCH、GAS模型与LightGBM的GARCH-LGBM、GAS-LGBM模型，以及连接GAS-LGBM和Copula熵的GAS-CE-LGBM模型。通过对不同模型的性能进行综合评估，获得了一些结论和见解。

首先，分析了不同模型的预测性能。结果表明，LightGBM模型在各项指标上明显优于MLP模型，验证了LightGBM在高维数据处理方面的出色表现。进一步，将GARCH和GAS模型的参数引入预测模型，并证实了这种方法可以提高预测精确性。具体来说，GAS-LGBM模型在各项指标中表现较好，表明将波动率因子考虑在内对于股票收益率的预测非常必要。

其次，探讨了特征选择的重要性。通过使用Copula熵和阈值筛选的方法，最终确定了最佳的54个特征，显著提高了模型的预测性能。特征筛选的结果表明，过多的输入特征可能会对模型的性能产生负面影响，因此选择适量的输入特征是至关重要的。

最后，总结了不同模型的性能变化百分比，进一步证实GAS-CE-LGBM模型在各项指标上的优越性。相对于其他模型，GAS-CE-LGBM表现出最小的RMSE、MAE和MAPE，以及最高的R²，从而显示了GAS模型以及特征筛选的重要性，可以提高收益率预测的精确性和可靠性。

综合而言，本文主要提供了一种考虑波动率因子和特征选择的“一带一路”收益率预测方法。实证分析表明，GAS-CE-LGBM模型在不同评估指标下表现出卓越的性能，能更好地捕捉到收益率的动态变化。然而，仍存在一些潜在的改进空间，如更深入的特征工程和更系统全面的模型结构，也许可以更加提高预测能力，并且本文的研究结论可以针对更多样本广泛验证等。最后，希望未来能够继续深入探索研究，以促进统计模型、机器学习和深度学习等的深化发展，使得“一带一路”等金融市场的预测模型更加完善，为投资者提供更理性的决策支持。

References 1

Creal, D., Koopman, S.J. and Lucas, A. (2012) Generalized Autoregressive Score Models with Applications. Journal of Applied Econometrics, 28, 777-795. >https://doi.org/10.1002/jae.1279

De Lira Salvatierra, I. and Patton, A.J. (2015) Dynamic Copula Models and High Frequency Data. Journal of Empirical Finance, 30, 120-135. >https://doi.org/10.1016/j.jempfin.2014.11.008

王天一, 黄卓. Realized GAS-GARCH及其在VaR预测中的应用[J]. 管理科学学报, 2015, 18(5): 79-86.

沈根祥, 邹欣悦. 已实现波动GAS-HEAVY模型及其实证研究[J]. 中国管理科学, 2019, 27(1): 1-10.

潘琛. LightGBM算法在短期股票的应用研究[D]: [硕士学位论文]. 重庆: 重庆大学, 2022.

牛晓楠. 基于LSTM-LightGBM组合模型的沪深300股指期货价格预测[D]: [硕士学位论文]. 武汉: 中南财经政法大学, 2022.

曾海潇. 基于LightGBM-GRU的新能源股票价格预测模型[D]: [硕士学位论文]. 重庆: 西南大学, 2023.

Kim, H.Y. and Won, C.H. (2018) Forecasting the Volatility of Stock Price Index: A Hybrid Model Integrating LSTM with Multiple GARCH-Type Models. Expert Systems with Applications, 103, 25-37. >https://doi.org/10.1016/j.eswa.2018.03.002

宁苡鹤. 基于相关性的股票价格预测模型研究[D]: [硕士学位论文]. 北京: 北京邮电大学, 2018.

Zeng, H., Shao, B., Bian, G., Dai, H. and Zhou, F. (2022) A Hybrid Deep Learning Approach by Integrating Extreme Gradient Boosting‐Long Short‐Term Memory with Generalized Autoregressive Conditional Heteroscedasticity Family Models for Natural Gas Load Volatility Prediction. Energy Science&Engineering, 10, 1998-2021. >https://doi.org/10.1002/ese3.1122

李筱艺, 王传美. 基于GAS-Copula-XGBoost的预测建模及应用研究[J]. 重庆理工大学学(自然科学), 2022, 36(6): 291-301.

Ma, J. and Sun, Z. (2011) Mutual Information Is Copula Entropy. Tsinghua Science and Technology, 16, 51-54. >https://doi.org/10.1016/s1007-0214(11)70008-6

马健. 基于Copula熵的变量选择[J]. 应用概率统计(英文版), 2021, 37(4): 405-420.

陈璐, 叶磊, 卢韦伟, 等. 基于Copula熵的神经网络径流预报模型预报因子选择[J]. 水力发电学报, 2014, 33(6): 25-29, 60.

陈燕璇, 刘合香, 倪增华. 基于Copula熵因子选取的PSO-ELM台风灾情预测模型[J]. 气象研究与应用, 2019, 40(2): 7-11, 55.

Mesiar, R. and Sheikhi, A. (2021) Nonlinear Random Forest Classification, a Copula-Based Approach. Applied Sciences, 11, Article 7140. >https://doi.org/10.3390/app11157140

李艳玲, 巩雅杰. 基于驱动分析的LSTM干旱预测模型研究[J]. 数学的实践与认识, 2022, 52(5): 92-102.

Liu, P., Han, S., Rong, N. and Fan, J. (2022) Frequency Stability Prediction of Power Systems Using Vision Transformer and Copula Entropy. Entropy, 24, Article 1165. >https://doi.org/10.3390/e24081165

Xiong, X. and Qing, G. (2023) A Hybrid Day-Ahead Electricity Price Forecasting Framework Based on Time Series. Energy, 264, Article ID: 126099. >https://doi.org/10.1016/j.energy.2022.126099

Zeng, H., Shao, B., Dai, H., Yan, Y. and Tian, N. (2023) Prediction of Fluctuation Loads Based on GARCH Family-CatBoost-CNNLSTM. Energy, 263, Article ID: 126125. >https://doi.org/10.1016/j.energy.2022.126125