Research on the Yield Prediction of the “Belt and Road” Index Based on GAS-CE-LGBM
Studying the returns of the “Belt and Road” index contributes to a better understanding and planning for investors and policymakers regarding the financial market trends associated with the “Belt and Road” Initiative. This understanding supports effective investment decisions and economic policy formulation. However, due to its complexity and non-linear characteristics, traditional forecasting methods might not adequately capture its dynamic changes. To address this issue, this paper proposes a comprehensive predictive framework, the Generalized Autoregressive Score-Copula Entropy-Light Gradient Boosting Machine (GAS-CE-LGBM) model, which combines the Generalized Autoregressive Score (GAS) model, Copula Entropy (CE) feature selection and supervised learning ensemble model—Light Gradient Boosting Machine (LightGBM). First, build the volatility GAS model of the return rate of the “Belt and Road” index and estimate the parameters. Secondly, calculate the corresponding Copula entropy of the “Belt and Road” index and its constituent stocks and filter through the threshold. Finally, input the data set of constituent stock information and GAS model parameters into the LightGBM model for modeling and forecasting. Experimental results demonstrate that the GAS-CE-LGBM model outperforms Multilayer Perceptron (MLP), LightGBM, GARCH-LGBM (Generalized Autoregressive Conditional Heteroskedasticity-Light Gradient Boosting Machine), and GAS-LGBM (Generalized Autoregressive Score-Light Gradient Boosting Machine) models in four evaluation metrics: RMSE, MAE, MAPE and R 2. On average, RMSE, MAE, and MAPE decrease by 19.09%, 19.81%, and 62.48%, respectively, while R 2increases by 12.05%. This indicates that the model exhibits strong performance and potential in forecasting the “Belt and Road” index, capturing the dynamic changes in the returns of the “Belt and Road” index more effectively.
GAS
随着“一带一路”倡议的推进和全球贸易的不断增长,对于“一带一路”指数的预测和分析变得越来越重要。“一带一路”指数代表了参与“一带一路”倡议的相关国家和地区经济发展的整体趋势和表现。准确预测“一带一路”指数的变化对于政府决策、投资战略和风险管理具有重要意义。“一带一路”指数受到多个行业和公司的影响,这些公司可能会在项目中扮演关键角色,因此这些公司的股票表现可能会对“一带一路”指数趋势产生一定影响。传统的时间序列预测方法在面对复杂的金融市场和多元数据关系时存在一定的局限性。为解决此问题,研究者们将Copula模型引入金融数据建模领域。Copula模型能够有效地捕捉多变量之间的依赖关系,从而更精确地描述金融市场中的相关性和联动效应。另一方面,GAS模型能够捕捉数据中的波动性变化,即条件异方差性,这是许多金融时间序列数据的典型特征。与此同时,LightGBM是一种强大的机器学习算法,特别适用于高维数据和大规模数据集的预测任务,是一种基于树的集成学习方法,旨在提高预测性能并减少计算成本。
然而,现有研究大多将GAS、Copula和LightGBM模型作为独立的部分,缺乏融合三者的深入探究。基于此,本文旨在将GAS和LightGBM模型结合得到GAS-LGBM模型,以期探索金融市场的波动性变化,进而通过Copula模型,计算Copula熵进行特征筛选,构建预测模型GAS-CE-LGBM,以更全面地挖掘数据中的信息,捕捉多变量关系,提升模型的预测性能,从而改进“一带一路”指数的预测精度。
目前,针对金融数据的预测,主要研究方法包括传统的统计模型和机器学习模型,以及近年来兴起的深度学习模型,这些方法在不同的研究中得到了应用,并取得了一定的预测效果。Creal等(2012)提出GAS理论,将时间序列的时变参数模型放在统一框架下,得到了广泛关注,并应用于众多领域,较传统GARCH族模型具有更优预测性能
最近,一些学者思考将传统统计模型和机器学习模型相结合,以提高时间序列预测的准确性和鲁棒性,并取得了一定的研究成果。Kim和Won (2018)将LSTM和GARCH族模型联合,提出了一种新的混合模型用于股价波动性的预测,实验表明,该模型的预测精度优于LSTM
此外,特征选择是从给定的特征集中选择最相关和最具信息量特征的过程。通过特征选择,可以去除冗余和噪声特征,提高模型的鲁棒性,同时提供更好的可解释性和洞察力。传统特征选择方法虽然在某些情况下有效但存在缺陷,尤其对于复杂数据和高维特征空间问题,其精确性和稳定性可能受到限制,且通常由于线性假设,无法捕捉变量之间复杂的非线性依赖关系。为此,在特征选择领域,Copula理论引起了一些学者的关注和研究。马健(2021)在Ma和Sun (2011)
综上所述,先前的研究已经为GAS-CE-LGBM模型的构建与应用提供了一定基础,为本文的设计和实施提供了宝贵的经验和参考。然而,针对传统统计模型结合机器学习进行“一带一路”指数的预测研究还相对较少,本文将在此基础上进一步探索和完善该模型的应用,以提高“一带一路”指数的预测准确性和稳健性。
若收益率序列 ,其中, 是随时间变化的模型参数, 表示序列 在t时刻的信息集,而 是不随时间变化的静态参数, 由Fisher信息矩阵构造。 的时变演化模式采用比例得分向量驱动的自回归形式,具体如下:
(1)
(2)
(3)
(4)
Copula熵是一种基于Copula函数和信息熵概念的熵度量,测度Copula函数的复杂性、非线性程度及变量之间的非线性依赖关系。现令 的边际分布为 , 为Copula密度函数,则 的Copula熵定义如下:
(5)
Copula熵的值表示变量之间的依赖关系和非线性关系,随机变量的互信息(Mutual Information, MI)等于其对应Copula函数的负熵
(6)
与传统的熵度量方法不同,Copula熵能够精准刻画变量之间的关联性,不受变量边缘分布的影响。通过计算变量的Copula熵,我们可以评估变量之间的依赖强度和非线性关系程度,进而辅助特征选择过程。
LightGBM是一种基于梯度提升框架的机器学习模型,广泛用于解决分类和回归问题。LightGBM以其卓越的性能、高效的训练速度和能够处理大规模高维数据集的能力而闻名。LightGBM的工作原理是梯度提升算法,其主要思想是通过迭代的方式,逐步提升多个弱分类器的性能,从而构建一个强大的集成模型。LightGBM与传统的梯度提升决策树(Gradient Boosting Decision Tree, GBDT)相比具有一些独特的优势。首先,LightGBM使用了直方图算法处理数据,意味着将数据集划分为直方图,并在每个直方图上进行分裂,而不是在每个数据点上分裂,大大减少了内存占用和计算复杂度,使其能够高效地处理大规模数据集。其次,LightGBM引入了高效的叶子生长策略,它采用了叶子中的最大值和最小值来进行分裂,从而减小了损失函数的梯度估计误差,提高了模型的性能。此外,LightGBM还支持类别特征的处理,能够自动将类别特征转换为数值特征,无需独热编码(One-Hot Encoding)等繁琐的预处理步骤。
简言之,LightGBM的优点包括了出色的预测性能、高效的训练速度和对大规模高维数据的适应能力。因此,本文选择了LightGBM作为“一带一路”收益率预测的基本模型,与MLP模型进行对比,并通过实验验证了其在处理高维数据集上的卓越表现。
GAS-CE-LGBM模型是一种将GAS模型、Copula熵特征筛选以及LightGBM模型融汇而成的框架。该模型的核心思想是通过GAS模型对“一带一路”指数的波动性进行建模和度量,然后根据Copula熵作为相关性度量选择输入特征,联系历史信息特征,将这些特征作为LightGBM模型的输入进行训练和预测。以下是GAS-CE-LGBM模型的原理和架构:
数据来源于东方财富Choice终端,数据处理使用Python 3.8和R 4.2.2。选取中证“一带一路”指数(代码为399991),样本期为2020年1月2日~2023年8月1日,选取纳入日期在2020年之前的成分股,计算各成分股收益率,填补缺失值,删除存在过多缺失值的样本后,共包含867个样本数据,58支适用成分股,共60个特征,包含“一带一路”指数的历史信息和相关58支成分股的历史收益率数据,如
类别 | 名称 | 符号表示 |
成分股收益率 | [中国中免,万华化学等] | [x1, ∙∙∙, x58] |
历史信息 | [成交量,成交额] | [x59, x60] |
目标变量 | “一带一路”指数对数收益率 | BRI |
为更好地研究“一带一路”指数与相应成分股收益率的具体情况,需要对预处理数据的描述性特征进行进一步分析,如
名称 | ADF | 偏度 | 峰度 | JB统计量 |
BRI | −29.568 | −0.586 | 4.916 | 922.473 |
中国中免 | −29.792 | 0.126 | 1.105 | 46.382 |
万华化学 | −30.209 | 0.279 | 1.341 | 76.137 |
中兴通讯 | −30.002 | 0.313 | 2.538 | 246.971 |
三一重工 | −22.353 | 0.382 | 1.828 | 141.769 |
紫金矿业 | −28.273 | 0.154 | 1.271 | 61.782 |
特变电工 | −30.617 | −0.997 | 15.517 | 8841.698 |
国电南瑞 | −16.580 | −0.941 | 8.645 | 2827.887 |
中国建筑 | −14.249 | 0.534 | 3.583 | 505.094 |
海螺水泥 | −29.320 | 0.496 | 3.363 | 444.219 |
中国中车 | −30.277 | 0.715 | 7.639 | 2182.068 |
由
显著性水平 | K-S统计量 | P值 |
0.05 | 0.015 | 0.988 |
为了检验“一带一路”指数收益率是否存在异方差性,采用ARCH-LM检验。检验结果如
显著性水平 | χ2统计量 | 自由度 | P值 |
0.05 | 24.568 | 12 | 0.017 |
根据K-S检验的结果,我们可以认为BRI服从自由度为5.47的t分布。t分布能灵活地捕捉厚尾特征,故拟合波动率模型是t分布的GAS(1, 1)模型。“一带一路”指数的变化具有一定波动性,因此在估计波动模型的参数时,不使用固定参数来解释收益率的波动,而是将滑动估计的参数值作为影响收益率波动的因素
运用R语言对“一带一路”指数收益率和58支成分股收益率进行Copula建模,选用正态、t、Gumbel、Frank和Clayton Copula,根据AIC准则选出最合适的Copula模型,如
BRI-成分股 | 类型 | 模型参数 | 自由度 |
BRI-辽港股份 | t | 0.387 | 6.437 |
BRI-包钢股份 | t | 0.537 | 14.995 |
BRI-上海建工 | t | 0.213 | 4.88 |
BRI-中国中冶 | t | 0.622 | 5.799 |
BRI-中国中车 | Gumbel | 1.69 | 0 |
BRI-中国重工 | Gumbel | 1.679 | 0 |
BRI-江西铜业 | t | 0.49 | 7.888 |
BRI-中国通号 | t | 0.618 | 7.769 |
BRI-中国铁建 | t | 0.594 | 6.856 |
BRI-中国电建 | t | 0.707 | 5.126 |
然后由式(5)和式(6)可以计算得到各成分股收益率和“一带一路”指数收益率之间的Copula熵值,列于
BRI-成分股 | Copula熵绝对值 |
BRI-辽港股份 | 0.9241 |
BRI-包钢股份 | 0.4919 |
BRI-上海建工 | 0.4592 |
续表
BRI-中国中冶 | 0.4067 |
BRI-中国中车 | 0.3312 |
BRI-中国重工 | 0.3064 |
BRI-江西铜业 | 0.2792 |
BRI-中国通号 | 0.2699 |
BRI-中国铁建 | 0.2674 |
BRI-中国电建 | 0.2645 |
以下四个误差指标用于评估模型的预测性能:均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和R2。指标的计算公式如式(7)~(10)所示:
(7)
(8)
(9)
(10)
其中, 是预测值, 是真实值, 是样本均值,n是测试的样本数量。RMSE和MAE的值越小,MAPE越收敛接近于0%,R2越接近于1,意味着模型的预测性能越好。
阈值 | 特征个数 | RMSE | MAPE | R2 |
0.50 | 59 | 0.00288 | 2.455% | 0.912 |
0.45 | 57 | 0.00281 | 2.543% | 0.917 |
0.40 | 56 | 0.00302 | 1.696% | 0.903 |
0.35 | 56 | 0.00302 | 1.696% | 0.903 |
0.30 | 54 | 0.00275 | 1.019% | 0.920 |
0.25 | 50 | 0.00318 | 1.716% | 0.893 |
0.20 | 42 | 0.00309 | 1.657% | 0.898 |
续表
0.15 | 32 | 0.00577 | 2.594% | 0.648 |
0.10 | 24 | 0.00750 | 2.568% | 0.405 |
0.05 | 14 | 0.00826 | 4.041% | 0.278 |
首先,当实验不考虑特征筛选时,我们将所有成分股的收益率作为特征输入到不同的模型中进行预测,预测结果如
其次,为了验证合适的波动因子作为输入特征在提高预测精度方面是有效的,将分别运用GARCH(1, 1)和GAS(1, 1)模型拟合收益率波动性,将模型参数输入到LightGBM得到GARCH-LGBM和GAS-LGBM模型,预测收益率波动性。预测结果表明,输入参数增强了模型的预测能力。具体地,根据RMSE、MAE和MAPE三个误差指标,模型的预测能力皆被排序为GAS-LGBM、GARCH-LGBM和LightGBM,其中RMSE最低为0.00282,MAE最低为0.00221,MAPE最低为2.38%。根据R2,模型的预测能力排名仍为GAS-LGBM、GARCH-LGBM和LightGBM,其中GAS-LGBM的R2最高为0.916。总体而言,MAE反映了绝对的误差,而RMSE表示了平均偏差的程度。因此,无论从最小化最大误差的角度,还是从模型的拟合度来看,GAS-LGBM都比GARCH-LGBM和LightGBM模型具有更佳的预测效果。
最后,当实验考虑选择输入特征时,通过Copula熵以及阈值筛选的方法最终确定54个有效特征时模型预测能力最佳。根据RMSE、MAE和MAPE来看,GAS-CE-LGBM分别为0.00274%、0.00208%和1.02%,均为最小值。GAS-CE-LGBM的R2为0.920,是所有模型中最高的。预测结果表明,使用Copula熵进行特征筛选能有效提高模型的整体预测精度与拟合度。
模型 | RMSE | MAE | MAPE | R2 |
MLP | 0.00582 | 0.00407 | 3.12% | 0.641 |
LightGBM | 0.00310 | 0.00240 | 3.07% | 0.898 |
GARCH-LGBM | 0.00301 | 0.00234 | 2.47% | 0.904 |
GAS-LGBM | 0.00282 | 0.00221 | 2.38% | 0.916 |
GAS-CE-LGBM | 0.00274 | 0.00208 | 1.02% | 0.920 |
上述不同模型的预测结果表明,结合GAS滑动时变系数的LightGBM预测模型具有更好的预测精度和结果。较其他四个模型,GAS-CE-LGBM模型评估指标RMSE、MAE、MAPE和R2的变化百分比如
模型 | RMSE变化 | MAE变化 | MAPE变化 | R2变化 |
MLP | −52.92% | −48.89% | −67.31% | +43.53% |
LightGBM | −11.61% | −13.33% | −66.78% | +2.45% |
GARCH-LGBM | −8.97% | −11.11% | −58.70% | +1.77% |
GAS-LGBM | −2.84% | −5.88% | −57.14% | +0.44% |
GAS-CE-LGBM | 0 | 0 | 0 | 0 |
上述这些结果进一步表明,过多的输入特征会对预测产生负面影响,适量的输入特征会对预测产生积极影响。另一方面,GAS模型可以有效地表征负载的波动,将GAS模型的参数作为输入特征可以有效地提高预测精度,且效果优于GARCH模型。
本文旨在探究“一带一路”收益率的预测模型,综合采用了多种模型和方法,包括LightGBM、MLP,联合GARCH、GAS模型与LightGBM的GARCH-LGBM、GAS-LGBM模型,以及连接GAS-LGBM和Copula熵的GAS-CE-LGBM模型。通过对不同模型的性能进行综合评估,获得了一些结论和见解。
首先,分析了不同模型的预测性能。结果表明,LightGBM模型在各项指标上明显优于MLP模型,验证了LightGBM在高维数据处理方面的出色表现。进一步,将GARCH和GAS模型的参数引入预测模型,并证实了这种方法可以提高预测精确性。具体来说,GAS-LGBM模型在各项指标中表现较好,表明将波动率因子考虑在内对于股票收益率的预测非常必要。
其次,探讨了特征选择的重要性。通过使用Copula熵和阈值筛选的方法,最终确定了最佳的54个特征,显著提高了模型的预测性能。特征筛选的结果表明,过多的输入特征可能会对模型的性能产生负面影响,因此选择适量的输入特征是至关重要的。
最后,总结了不同模型的性能变化百分比,进一步证实GAS-CE-LGBM模型在各项指标上的优越性。相对于其他模型,GAS-CE-LGBM表现出最小的RMSE、MAE和MAPE,以及最高的R2,从而显示了GAS模型以及特征筛选的重要性,可以提高收益率预测的精确性和可靠性。
综合而言,本文主要提供了一种考虑波动率因子和特征选择的“一带一路”收益率预测方法。实证分析表明,GAS-CE-LGBM模型在不同评估指标下表现出卓越的性能,能更好地捕捉到收益率的动态变化。然而,仍存在一些潜在的改进空间,如更深入的特征工程和更系统全面的模型结构,也许可以更加提高预测能力,并且本文的研究结论可以针对更多样本广泛验证等。最后,希望未来能够继续深入探索研究,以促进统计模型、机器学习和深度学习等的深化发展,使得“一带一路”等金融市场的预测模型更加完善,为投资者提供更理性的决策支持。