1. 引言
随着“一带一路”倡议的推进和全球贸易的不断增长,对于“一带一路”指数的预测和分析变得越来越重要。“一带一路”指数代表了参与“一带一路”倡议的相关国家和地区经济发展的整体趋势和表现。准确预测“一带一路”指数的变化对于政府决策、投资战略和风险管理具有重要意义。“一带一路”指数受到多个行业和公司的影响,这些公司可能会在项目中扮演关键角色,因此这些公司的股票表现可能会对“一带一路”指数趋势产生一定影响。传统的时间序列预测方法在面对复杂的金融市场和多元数据关系时存在一定的局限性。为解决此问题,研究者们将Copula模型引入金融数据建模领域。Copula模型能够有效地捕捉多变量之间的依赖关系,从而更精确地描述金融市场中的相关性和联动效应。另一方面,GAS模型能够捕捉数据中的波动性变化,即条件异方差性,这是许多金融时间序列数据的典型特征。与此同时,LightGBM是一种强大的机器学习算法,特别适用于高维数据和大规模数据集的预测任务,是一种基于树的集成学习方法,旨在提高预测性能并减少计算成本。
然而,现有研究大多将GAS、Copula和LightGBM模型作为独立的部分,缺乏融合三者的深入探究。基于此,本文旨在将GAS和LightGBM模型结合得到GAS-LGBM模型,以期探索金融市场的波动性变化,进而通过Copula模型,计算Copula熵进行特征筛选,构建预测模型GAS-CE-LGBM,以更全面地挖掘数据中的信息,捕捉多变量关系,提升模型的预测性能,从而改进“一带一路”指数的预测精度。
2. 文献综述
目前,针对金融数据的预测,主要研究方法包括传统的统计模型和机器学习模型,以及近年来兴起的深度学习模型,这些方法在不同的研究中得到了应用,并取得了一定的预测效果。Creal等(2012)提出GAS理论,将时间序列的时变参数模型放在统一框架下,得到了广泛关注,并应用于众多领域,较传统GARCH族模型具有更优预测性能[1]。De Lira Salvatierra和Patton (2015)将由高频数据得到的已实现相关系数和已实现波动率嵌入到GAS模型,得到Realized-GAS (GRAS)模型,显著提高了分布在样本内拟合优度和样本外预测能力[2]。王天一和黄卓(2015)提出的Realized GAS-GARCH模型对标的资产波动率的预测比Realized GARCH模型更佳[3]。沈根祥和邹欣悦(2019)得到GAS-HEAVY模型对RV分布特征的捕捉更为灵活,在不同的损失函数评价标准下,明显优于其他竞争模型,对指数波动变化的描述更接近实际[4]。潘琛(2022)利用2015年1月的上证指数数据,通过五折交叉检验来训练LightGBM模型,得到了良好的预测能力[5]。牛晓楠(2022)在沪深300股指期货价格预测中,发现LightGBM模型能很好地刻画股指期货价格的趋势[6]。曾海潇(2023)对新能源股票价格构建GRU、VAR和LightGBM模型,验证了LightGBM模型的优越性[7]。
最近,一些学者思考将传统统计模型和机器学习模型相结合,以提高时间序列预测的准确性和鲁棒性,并取得了一定的研究成果。Kim和Won (2018)将LSTM和GARCH族模型联合,提出了一种新的混合模型用于股价波动性的预测,实验表明,该模型的预测精度优于LSTM[8]。宁苡鹤(2018)提出的Copula-ANN模型对于纽约交易所电力板块共计30支股票的预测结果具有较高的预测精度,从统计指标和财务指标两方面均验证了模型的有效性[9]。Zeng等(2020)提出使用GARCH族模型参数作为波动率的影响因素,并通过XGBoost算法筛选特征,输入LSTM网络中进行波动率预测,取得了优良的预测效果[10]。李筱艺和王传美(2022)设计出依据动态相关性大小自动优化输入特征的GAS-Copula-XGBoost模型,应用于“一带一路”指数预测研究,预测精度较BP神经网络、SVR和XGBoost模型有显著提升[11]。
此外,特征选择是从给定的特征集中选择最相关和最具信息量特征的过程。通过特征选择,可以去除冗余和噪声特征,提高模型的鲁棒性,同时提供更好的可解释性和洞察力。传统特征选择方法虽然在某些情况下有效但存在缺陷,尤其对于复杂数据和高维特征空间问题,其精确性和稳定性可能受到限制,且通常由于线性假设,无法捕捉变量之间复杂的非线性依赖关系。为此,在特征选择领域,Copula理论引起了一些学者的关注和研究。马健(2021)在Ma和Sun (2011)[12]的基础上,提出了Copula熵特征选择方法,实验结果表明,与传统方法相比,该方法采用非参数方法,不依赖于特定的分布假设,使得该方法在处理不同类型的数据时具有普适性和灵活性[13]。陈璐等(2014)基于Copula熵筛选预报因子构造神经网络径流预报模型,结果表明,该方法预测精度相较传统方法更高,且能够切实可靠地找出相关性变量,对线性相关和非线性相关均适用[14]。陈燕璇等(2019)借助Copula熵筛选与台风灾情显著相关的影响因子,结果表明,Copula熵影响因子选取的灾情预测模型的拟合优度和预测精度更高[15]。Mesiar和Sheikhi (2021)提出了一种基于Copula的非线性随机森林分类方法,在COVID-19和糖尿病数据中的实验表明,该方法能够选择出最相关的特征,并具有较高的分类精度[16]。李艳玲和巩雅杰(2022)在Copula熵的基础上,根据Hampel准则选择干旱因子,构建LSTM神经网络预测模型,获得了较高的预测精度[17]。Liu等(2022)将Copula熵特征选择方法应用于电力系统频率稳定性的预测,通过构造具有固定维度的类图像数据并去除冗余信息,提高了预测精度[18]。Xiong和Qing (2023)引入了一种基于Copula的自适应特征选择算法(ACBFS),同时连结长短期记忆(LSTM)模型,研究结果表明,所提出的混合算法在电力价格预测方面具有更优良的效果和实用性[19]。
综上所述,先前的研究已经为GAS-CE-LGBM模型的构建与应用提供了一定基础,为本文的设计和实施提供了宝贵的经验和参考。然而,针对传统统计模型结合机器学习进行“一带一路”指数的预测研究还相对较少,本文将在此基础上进一步探索和完善该模型的应用,以提高“一带一路”指数的预测准确性和稳健性。
3. 模型理论
3.1. GAS模型
若收益率序列
,其中,
是随时间变化的模型参数,
表示序列
在t时刻的信息集,而
是不随时间变化的静态参数,
由Fisher信息矩阵构造。
的时变演化模式采用比例得分向量驱动的自回归形式,具体如下:
(1)
(2)
(3)
(4)
3.2. 基于Copula熵的相关性度量
Copula熵是一种基于Copula函数和信息熵概念的熵度量,测度Copula函数的复杂性、非线性程度及变量之间的非线性依赖关系。现令
的边际分布为
,
为Copula密度函数,则
的Copula熵定义如下:
(5)
Copula熵的值表示变量之间的依赖关系和非线性关系,随机变量的互信息(Mutual Information, MI)等于其对应Copula函数的负熵[12]:
(6)
与传统的熵度量方法不同,Copula熵能够精准刻画变量之间的关联性,不受变量边缘分布的影响。通过计算变量的Copula熵,我们可以评估变量之间的依赖强度和非线性关系程度,进而辅助特征选择过程。
3.3. LightGBM模型简介
LightGBM是一种基于梯度提升框架的机器学习模型,广泛用于解决分类和回归问题。LightGBM以其卓越的性能、高效的训练速度和能够处理大规模高维数据集的能力而闻名。LightGBM的工作原理是梯度提升算法,其主要思想是通过迭代的方式,逐步提升多个弱分类器的性能,从而构建一个强大的集成模型。LightGBM与传统的梯度提升决策树(Gradient Boosting Decision Tree, GBDT)相比具有一些独特的优势。首先,LightGBM使用了直方图算法处理数据,意味着将数据集划分为直方图,并在每个直方图上进行分裂,而不是在每个数据点上分裂,大大减少了内存占用和计算复杂度,使其能够高效地处理大规模数据集。其次,LightGBM引入了高效的叶子生长策略,它采用了叶子中的最大值和最小值来进行分裂,从而减小了损失函数的梯度估计误差,提高了模型的性能。此外,LightGBM还支持类别特征的处理,能够自动将类别特征转换为数值特征,无需独热编码(One-Hot Encoding)等繁琐的预处理步骤。
简言之,LightGBM的优点包括了出色的预测性能、高效的训练速度和对大规模高维数据的适应能力。因此,本文选择了LightGBM作为“一带一路”收益率预测的基本模型,与MLP模型进行对比,并通过实验验证了其在处理高维数据集上的卓越表现。
3.4. GAS-CE-LGBM模型的原理和架构
GAS-CE-LGBM模型是一种将GAS模型、Copula熵特征筛选以及LightGBM模型融汇而成的框架。该模型的核心思想是通过GAS模型对“一带一路”指数的波动性进行建模和度量,然后根据Copula熵作为相关性度量选择输入特征,联系历史信息特征,将这些特征作为LightGBM模型的输入进行训练和预测。以下是GAS-CE-LGBM模型的原理和架构:
首先将“一带一路”指数和输入特征集中的成分股对数化,得到各自的收益率序列。收益率计算公式为
,
为每日收盘价,
为前一日收盘价。
建立GAS模型。确定“一带一路”指数收益率数据的分布,对其构造滑动窗口为30日的滑动波动率模型——GAS(1, 1)模型。
估计Copula熵。根据“一带一路”指数收益率与各成分股收益率的经验分布,构建Copula模型。随后凭借AIC准则选择最合适的Copula模型,并通过式(5)和式(6)计算“一带一路”指数收益率和各成分股收益率之间的相关性度量,即Copula熵。
设计循环程序。由所得Copula熵确定一个初始阈值,设定一个判断条件:Copula熵值是否大于阈值。选择Copula熵值小于阈值的成分股收益率特征,与步骤2所得GAS模型的时变参数构成输入特征集,作为LightGBM模型的输入并进行一轮训练。当完成一次训练后,阈值自动更新0.05,再选择满足新判定条件的特征,重新构成新的输入特征集。不断重复上述过程,达到循环预测优化输入特征的目的。当模型评估指标超过5次,则不再优化,结束循环,退出程序。
4. 实证分析
4.1. 数据来源
数据来源于东方财富Choice终端,数据处理使用Python 3.8和R 4.2.2。选取中证“一带一路”指数(代码为399991),样本期为2020年1月2日~2023年8月1日,选取纳入日期在2020年之前的成分股,计算各成分股收益率,填补缺失值,删除存在过多缺失值的样本后,共包含867个样本数据,58支适用成分股,共60个特征,包含“一带一路”指数的历史信息和相关58支成分股的历史收益率数据,如表1所示。“一带一路”指数的对数收益率为预测目标,用BRI表示。
Table 1.Dataset and symbolic representation
表1.数据集与符号表示
类别 |
名称 |
符号表示 |
成分股收益率 |
[中国中免,万华化学等] |
[x1, ∙∙∙, x58] |
历史信息 |
[成交量,成交额] |
[x59, x60] |
目标变量 |
“一带一路”指数对数收益率 |
BRI |
为更好地研究“一带一路”指数与相应成分股收益率的具体情况,需要对预处理数据的描述性特征进行进一步分析,如表2所示。由于成分股数量过多,后文的图表信息仅给出部分结果。观察统计分析值发现,大多收益率序列JB统计量值较高,表明它们的分布不是正态的。同时,大多数成分股收益率的偏度接近0,峰度大于3,说明样本数据普遍具有尖峰厚尾特征。单位根检验的结果表明,所有样本数据都是平稳序列,可以进行下一步实验。
Table 2.Descriptive statistical information of data (excerpt)
表2.数据描述性统计信息(节选)
名称 |
ADF |
偏度 |
峰度 |
JB统计量 |
BRI |
−29.568 |
−0.586 |
4.916 |
922.473 |
中国中免 |
−29.792 |
0.126 |
1.105 |
46.382 |
万华化学 |
−30.209 |
0.279 |
1.341 |
76.137 |
中兴通讯 |
−30.002 |
0.313 |
2.538 |
246.971 |
三一重工 |
−22.353 |
0.382 |
1.828 |
141.769 |
紫金矿业 |
−28.273 |
0.154 |
1.271 |
61.782 |
特变电工 |
−30.617 |
−0.997 |
15.517 |
8841.698 |
国电南瑞 |
−16.580 |
−0.941 |
8.645 |
2827.887 |
中国建筑 |
−14.249 |
0.534 |
3.583 |
505.094 |
海螺水泥 |
−29.320 |
0.496 |
3.363 |
444.219 |
中国中车 |
−30.277 |
0.715 |
7.639 |
2182.068 |
由表2的JB统计量可知,BRI显然不服从正态分布,BRI的具体分布如图1所示。为了进一步确定BRI的分布,假设数据服从t分布并对其拟合,得到自由度为5.47。对其进行K-S检验,结果如表3所示。
Table 3.K-S test result
表3.K-S检验结果
显著性水平 |
K-S统计量 |
P值 |
0.05 |
0.015 |
0.988 |
为了检验“一带一路”指数收益率是否存在异方差性,采用ARCH-LM检验。检验结果如表4所示,P值小于0.05,由此可以判断收益率序列存在异方差性。
Table 4.ARCH-LM test result
表4.ARCH-LM检验结果
显著性水平 |
χ2统计量 |
自由度 |
P值 |
0.05 |
24.568 |
12 |
0.017 |
4.2. GAS模型构建与参数估计
根据K-S检验的结果,我们可以认为BRI服从自由度为5.47的t分布。t分布能灵活地捕捉厚尾特征,故拟合波动率模型是t分布的GAS(1, 1)模型。“一带一路”指数的变化具有一定波动性,因此在估计波动模型的参数时,不使用固定参数来解释收益率的波动,而是将滑动估计的参数值作为影响收益率波动的因素[20]。
Figure 1.Sliding estimation process
图1.滑动估计过程
4.3. Copula模型构建与Copula熵计算
运用R语言对“一带一路”指数收益率和58支成分股收益率进行Copula建模,选用正态、t、Gumbel、Frank和Clayton Copula,根据AIC准则选出最合适的Copula模型,如表5所示。
Table 5.Copula model between BRI and component stocks (excerpt)
表5.BRI与成分股对应的Copula模型(节选)
BRI-成分股 |
类型 |
模型参数 |
自由度 |
BRI-辽港股份 |
t |
0.387 |
6.437 |
BRI-包钢股份 |
t |
0.537 |
14.995 |
BRI-上海建工 |
t |
0.213 |
4.88 |
BRI-中国中冶 |
t |
0.622 |
5.799 |
BRI-中国中车 |
Gumbel |
1.69 |
0 |
BRI-中国重工 |
Gumbel |
1.679 |
0 |
BRI-江西铜业 |
t |
0.49 |
7.888 |
BRI-中国通号 |
t |
0.618 |
7.769 |
BRI-中国铁建 |
t |
0.594 |
6.856 |
BRI-中国电建 |
t |
0.707 |
5.126 |
然后由式(5)和式(6)可以计算得到各成分股收益率和“一带一路”指数收益率之间的Copula熵值,列于表6。明显看到辽港股份与BRI之间的Copula熵值与其他组别相差很大,故选择0.5作为第一个阈值,随后每次更新0.05来循环步骤4设计的程序。
Table 6.Copula entropy values of BRI and component stocks (excerpt)
表6.BRI与成分股对应的Copula熵值(节选)
BRI-成分股 |
Copula熵绝对值 |
BRI-辽港股份 |
0.9241 |
BRI-包钢股份 |
0.4919 |
BRI-上海建工 |
0.4592 |
续表
BRI-中国中冶 |
0.4067 |
BRI-中国中车 |
0.3312 |
BRI-中国重工 |
0.3064 |
BRI-江西铜业 |
0.2792 |
BRI-中国通号 |
0.2699 |
BRI-中国铁建 |
0.2674 |
BRI-中国电建 |
0.2645 |
4.4. 拟合结果分析
以下四个误差指标用于评估模型的预测性能:均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和R2。指标的计算公式如式(7)~(10)所示:
(7)
(8)
(9)
(10)
其中,
是预测值,
是真实值,
是样本均值,n是测试的样本数量。RMSE和MAE的值越小,MAPE越收敛接近于0%,R2越接近于1,意味着模型的预测性能越好。
表7为通过阈值筛选后的不同特征输入到LightGBM模型中的拟合结果。当阈值为0.35时,筛选结果没有发生任何变化;当阈值为0.30时,共入选54个特征因子,此时MAE、RMSE和MAPE三项误差值达到最小,R2达到最大。此后再更新阈值,误差结果会越来越大,R2也随之减小。
Table 7.Feature screening results
表7.特征筛选结果
阈值 |
特征个数 |
RMSE |
MAPE |
R2 |
0.50 |
59 |
0.00288 |
2.455% |
0.912 |
0.45 |
57 |
0.00281 |
2.543% |
0.917 |
0.40 |
56 |
0.00302 |
1.696% |
0.903 |
0.35 |
56 |
0.00302 |
1.696% |
0.903 |
0.30 |
54 |
0.00275 |
1.019% |
0.920 |
0.25 |
50 |
0.00318 |
1.716% |
0.893 |
0.20 |
42 |
0.00309 |
1.657% |
0.898 |
续表
0.15 |
32 |
0.00577 |
2.594% |
0.648 |
0.10 |
24 |
0.00750 |
2.568% |
0.405 |
0.05 |
14 |
0.00826 |
4.041% |
0.278 |
4.5. 预测结果分析
首先,当实验不考虑特征筛选时,我们将所有成分股的收益率作为特征输入到不同的模型中进行预测,预测结果如表8所示。实验结果显示,在RMSE、MAE、MAPE和R2上,LightGBM模型的表现均明显优于MLP。这也验证了LightGBM模型对于高维数据的处理效果很好,而神经网络模型在处理高维数据上存在着一定的局限性。
其次,为了验证合适的波动因子作为输入特征在提高预测精度方面是有效的,将分别运用GARCH(1, 1)和GAS(1, 1)模型拟合收益率波动性,将模型参数输入到LightGBM得到GARCH-LGBM和GAS-LGBM模型,预测收益率波动性。预测结果表明,输入参数增强了模型的预测能力。具体地,根据RMSE、MAE和MAPE三个误差指标,模型的预测能力皆被排序为GAS-LGBM、GARCH-LGBM和LightGBM,其中RMSE最低为0.00282,MAE最低为0.00221,MAPE最低为2.38%。根据R2,模型的预测能力排名仍为GAS-LGBM、GARCH-LGBM和LightGBM,其中GAS-LGBM的R2最高为0.916。总体而言,MAE反映了绝对的误差,而RMSE表示了平均偏差的程度。因此,无论从最小化最大误差的角度,还是从模型的拟合度来看,GAS-LGBM都比GARCH-LGBM和LightGBM模型具有更佳的预测效果。
最后,当实验考虑选择输入特征时,通过Copula熵以及阈值筛选的方法最终确定54个有效特征时模型预测能力最佳。根据RMSE、MAE和MAPE来看,GAS-CE-LGBM分别为0.00274%、0.00208%和1.02%,均为最小值。GAS-CE-LGBM的R2为0.920,是所有模型中最高的。预测结果表明,使用Copula熵进行特征筛选能有效提高模型的整体预测精度与拟合度。
Table 8.Model prediction results
表8.模型预测结果
模型 |
RMSE |
MAE |
MAPE |
R2 |
MLP |
0.00582 |
0.00407 |
3.12% |
0.641 |
LightGBM |
0.00310 |
0.00240 |
3.07% |
0.898 |
GARCH-LGBM |
0.00301 |
0.00234 |
2.47% |
0.904 |
GAS-LGBM |
0.00282 |
0.00221 |
2.38% |
0.916 |
GAS-CE-LGBM |
0.00274 |
0.00208 |
1.02% |
0.920 |
上述不同模型的预测结果表明,结合GAS滑动时变系数的LightGBM预测模型具有更好的预测精度和结果。较其他四个模型,GAS-CE-LGBM模型评估指标RMSE、MAE、MAPE和R2的变化百分比如表9所示。相对于MLP模型,分别降低了52.92%、48.89%和67.31%,而R2提高了43.53%;对于没有考虑波动率的LightGBM模型来说,分别降低了11.61%、13.33%和66.78%,R2提高了2.45%;相对于GARCH-LGBM模型,分别降低了8.97%、11.11%和58.70%,R2增加了1.77%。在没有考虑特征筛选的GAS-LGBM模型上,分别下降了2.84%、5.88%和57.14%,R2增加了0.44%。
Table 9.Percentage change in model evaluation indicators
表9.模型评估指标变化百分比
模型 |
RMSE变化 |
MAE变化 |
MAPE变化 |
R2变化 |
MLP |
−52.92% |
−48.89% |
−67.31% |
+43.53% |
LightGBM |
−11.61% |
−13.33% |
−66.78% |
+2.45% |
GARCH-LGBM |
−8.97% |
−11.11% |
−58.70% |
+1.77% |
GAS-LGBM |
−2.84% |
−5.88% |
−57.14% |
+0.44% |
GAS-CE-LGBM |
0 |
0 |
0 |
0 |
图2展示了不同模型的预测结果,其中Test Data表示真实值。总体而言,与其他四个模型相比,GAS-CE-LGBM模型在RMSE、MAE、MAPE和R2四个评估指标上表现最出色,RMSE、MAE和MAPE分别平均降低了19.09%、19.81%、62.48%,R2平均提高了12.05%。
Figure 2.Prediction result
图2.预测结果
上述这些结果进一步表明,过多的输入特征会对预测产生负面影响,适量的输入特征会对预测产生积极影响。另一方面,GAS模型可以有效地表征负载的波动,将GAS模型的参数作为输入特征可以有效地提高预测精度,且效果优于GARCH模型。
5. 总结
本文旨在探究“一带一路”收益率的预测模型,综合采用了多种模型和方法,包括LightGBM、MLP,联合GARCH、GAS模型与LightGBM的GARCH-LGBM、GAS-LGBM模型,以及连接GAS-LGBM和Copula熵的GAS-CE-LGBM模型。通过对不同模型的性能进行综合评估,获得了一些结论和见解。
首先,分析了不同模型的预测性能。结果表明,LightGBM模型在各项指标上明显优于MLP模型,验证了LightGBM在高维数据处理方面的出色表现。进一步,将GARCH和GAS模型的参数引入预测模型,并证实了这种方法可以提高预测精确性。具体来说,GAS-LGBM模型在各项指标中表现较好,表明将波动率因子考虑在内对于股票收益率的预测非常必要。
其次,探讨了特征选择的重要性。通过使用Copula熵和阈值筛选的方法,最终确定了最佳的54个特征,显著提高了模型的预测性能。特征筛选的结果表明,过多的输入特征可能会对模型的性能产生负面影响,因此选择适量的输入特征是至关重要的。
最后,总结了不同模型的性能变化百分比,进一步证实GAS-CE-LGBM模型在各项指标上的优越性。相对于其他模型,GAS-CE-LGBM表现出最小的RMSE、MAE和MAPE,以及最高的R2,从而显示了GAS模型以及特征筛选的重要性,可以提高收益率预测的精确性和可靠性。
综合而言,本文主要提供了一种考虑波动率因子和特征选择的“一带一路”收益率预测方法。实证分析表明,GAS-CE-LGBM模型在不同评估指标下表现出卓越的性能,能更好地捕捉到收益率的动态变化。然而,仍存在一些潜在的改进空间,如更深入的特征工程和更系统全面的模型结构,也许可以更加提高预测能力,并且本文的研究结论可以针对更多样本广泛验证等。最后,希望未来能够继续深入探索研究,以促进统计模型、机器学习和深度学习等的深化发展,使得“一带一路”等金融市场的预测模型更加完善,为投资者提供更理性的决策支持。