本研究通过将贝叶斯统计方法融入投资者情绪的测量中,来提高对中国股市股票价格波动的预测准确性。基于贝叶斯框架的优势,通过整合多来源信息并考虑其相互之间的潜在联系,从而更准确地捕捉和量化投资者情绪的变化。相比于传统的情绪测量技术,贝叶斯方法在样本内外测试中展现了显著的预测性能提升,不仅优于五个主要的综合情绪指标。研究结果表明贝叶斯方法在理解和应对市场情绪波动中的有效性,为中国股市的波动率研究提供了一种新的角度。 This study improves the accuracy of predicting stock price volatility in the Chinese stock market by incorporating Bayesian statistical methods into the measurement of investor sentiment. Based on the strengths of the Bayesian framework, changes in investor sentiment are more accurately captured and quantified by integrating information from multiple sources and considering their potential connections with each other. Compared to traditional sentiment measurement techniques, the Bayesian approach demonstrates significant predictive performance enhancement in in-sample and out-of-sample tests, not only outperforming the five main composite sentiment indicators, but also showing higher robustness and predictive power when using a single sentiment proxy variable for prediction. The findings demonstrate the effectiveness of the Bayesian approach in understanding and responding to market sentiment volatility and provide a new perspective for volatility research in the Chinese stock market.
本研究通过将贝叶斯统计方法融入投资者情绪的测量中,来提高对中国股市股票价格波动的预测准确性。基于贝叶斯框架的优势,通过整合多来源信息并考虑其相互之间的潜在联系,从而更准确地捕捉和量化投资者情绪的变化。相比于传统的情绪测量技术,贝叶斯方法在样本内外测试中展现了显著的预测性能提升,不仅优于五个主要的综合情绪指标。研究结果表明贝叶斯方法在理解和应对市场情绪波动中的有效性,为中国股市的波动率研究提供了一种新的角度。
投资者情绪,已实现波动率,Markov Chain Monte Carlo (MCMC),Scaled-PCA,预测
—Based on the Scaled (Bayesian)-PCA Model
Jiaxiong Yu, Yongmei Ding*
School of Science, Wuhan University of Science and Technology, Wuhan Hubei
Received: Mar. 1st, 2024; accepted: Mar. 20th, 2024; published: Apr. 30th, 2024
This study improves the accuracy of predicting stock price volatility in the Chinese stock market by incorporating Bayesian statistical methods into the measurement of investor sentiment. Based on the strengths of the Bayesian framework, changes in investor sentiment are more accurately captured and quantified by integrating information from multiple sources and considering their potential connections with each other. Compared to traditional sentiment measurement techniques, the Bayesian approach demonstrates significant predictive performance enhancement in in-sample and out-of-sample tests, not only outperforming the five main composite sentiment indicators, but also showing higher robustness and predictive power when using a single sentiment proxy variable for prediction. The findings demonstrate the effectiveness of the Bayesian approach in understanding and responding to market sentiment volatility and provide a new perspective for volatility research in the Chinese stock market.
Keywords:Investor Sentiment, Realised Volatility, Markov Chain Monte Carlo (MCMC), Scaled-PCA, Forecasting
Copyright © 2024 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
经典金融理论有效市场假说(Efficient Market Hypothesis, EMH)的提出有效的推进了资产定价的发展。该理论认为所有影响股价的信息都及时、准确且充分地反映在了股价中,且投资者是理性的做出投资决策 [
在过去的二十年里,投资者情绪的研究已经成为行为金融学的一个独特领域 [
本文贡献如下。首先,现有文献中的模型可以较好地预测波动率,为此基于贝叶斯的Scaled-PCA产生的投资者情绪在相同基准模型下,考虑了几个相关的竞争模型,同样与我们提出模型效果上存在差异。第二,其他未考虑不同方法下的投资者情绪和股市波动性之间的动态关系,我们使用VAR模型对每个个体投资者情绪对波动率展开了脉冲分析。
在本章节中,首先介绍本文中使用的变量的时间维度、来源、定义和度量方法。通过有关上海证券交易所综合指数(简写为SSEC)的数据,计算出月度已实现波动率作为本研究的目标。第二,我们重新审视了中国市场上现存的市场层面的投资者情绪指数,第三,介绍本文用于构建中国金融市场投资者情绪的六个主流的情绪代理变量,然后对上述应变量和自变量进行描述性统计和相关性分析。最后,通过不同方法建立的投资者情绪进行同期之间预测能力分析。
本研究使用的数据来源于多个数据库和开放网站,例如,SSEC指数每日交易数据来源与上海证券交易所,其中收集了包括当日开盘价,前一交易日的收盘价以及当日成交量和成交额。基本情绪指标、CICSI、ISI数据来自中国股票市场和会计研究数据库(CSMAR)。
Andersen等人提出已实现波动率(Realized Volatility),通过每日的交易数据来估计波动率 [
R V m = ∑ n = 1 N m r m , n 2 (1)
其中 r v m , n = log ( p m , n ) − log ( p m , n − 1 ) , p m , n 为第m个月中第n个交易日的收盘价, N m 为第m个月的总交易日数, R V m 表示为第m月股指的对数收益率。
图1. 中国股票市场的已实现波动率
越来越多的学者加入对于中国投资者情绪的研究,基于此本研究选取了共计7个关于中国投资者情绪的指数(包含我们的模型)。其中首先有两个主流的综合投资者情绪的研究 [
1) CISIC,是由Yi等人基于Baker和Wurgler的研究方法以主成分分析方法(PCA),结合了6个基本情感指标及其滞后效应而创建的 [
2) ISI,是由Wei等人提出的投资者情绪指数(ISI) [
3) SPLS是由Gong等人在CICSI和ISI的综合情绪指标选取的代理变量的基础上,使用了不同于CICSI和ISI的偏最小二乘法(PLS)构造了一种新的投资者情绪指数(NISI) [
4) SSPCA,Song等人通过分别遵循Huang等人的方法构建 [
本文在前人的研究基础上选取投资者情绪基本代理变量 [
1) 封闭式基金折价率,计算每月沪–深股市(A股)中封闭式股票型基金份额的资产净值与其市场价格的平均差额,Lee等人认为封闭式基金的折价率可以反映投资者情绪CEFD作为投资者情绪的常见代理
指标。计算方法为: C E F D t = 1 k ∑ i = 1 k ( p i t − N A V i t N A V i t ) 其中 p i t 是基金i在t月末的市场价格, N A V i t 是基金i在t月末的净值,k是t月末封闭式基金的数量。
2) IPO首日回报率:首次公开募股(上市)为当月新上市A股首日收益算术平均值,RIPO同样作为投资者情绪的常见代理指标。
3) IPO数:是指当月首次公开募股的公司数量;Baker和Wurgler认为,股票发行数量和首日回报率都可以反映投资者情绪。即当投资者情绪高涨时,更多的公司准备上升,而当投资者情绪低落时,准上市公司会降低上市的希望。
4) 新设投资者账户数是指当月新开股市交易账户。在新兴股票市场中使用较多的情绪代理指标。当投资者情绪高涨时,会增加更多新投资者开户。直观地说,NIA越大,股市吸引到的股市交易者越多。情绪越高涨。
5) 股票市场成交量,通常作为市场流动性的衡量标准,这是因为投资者在股市下跌时情绪较低会降低成交量,而在股市上涨时情绪较高会使成交量上升。本文选取了沪深两市A股加权月换手率作为情绪代理,计算方法见式(2)。
T U R N t = M T t M T t − 1 + M V t + 2 ⋅ A T D t C T D (2)
其中 M T t 表示为第t个月的市场成交额, M V t 代表月底的市场总市值, A T D t , C T D 分别代表市场每月平均交易日和每月累计交易日。
6) 消费者信心指数,通过问卷调查的方式,由中国国家统计局发布,反映消费者对当前经济状况的看法以及他们对未来经济前景和个人经济状况的预期。这一指标通常被用来预测经济的走向和消费趋势也常被用来作为投资者情绪代理指标。
7) 中国不确定性指数,反映了外部环境的不确定性 [
图2. 已实现波动率和本文使用的七个独立的情绪代理的时序图
市场层面情绪指标之间的相关关系如表1所示,首先,RV_mon和DCEF的相关系数为−0.35065,这意味着它们之间有中等强度的负相关关系。而ISI和CICSI的相关系数为0.49631,这表明它们之间有中等强度的正相关关系。最高的相关性在ISI和TURN之间,为0.98434,显示出非常强的正相关。
表2为投资者情绪指标数据统计属性。投资者情绪指标包括封闭式基金折价率(CEFD)、IPO首日收益率(RIPO)、IPO数量(NIPO)、股票成交量(TURN)、新开个人投资者账户数(NA)、消费者信心指数(CCI)和中国不确定性指数。七个独立的情绪代理的定义可以分别在第二节中找到。提供这些变量的统计数据,例如平均值(Mean)、最大值(Max)、最小值(Min)、标准差(Std)、偏度(Skew)和峰度(Kurt)。
建立VAR模型,VAR一般形式如式(3)所示:
RV_mon | DCEF | RIPO | NIPO | NA. | TURN | CCI | ISI | CICSI |
---|---|---|---|---|---|---|---|---|
1 | −0.35065 | 0.13063 | −0.26634 | 0.33354 | 0.45080 | −0.22219 | 0.26165 | −0.17679 |
−0.35065 | 1 | −0.03086 | 0.55200 | 0.09405 | −0.13604 | 0.36785 | 0.19072 | 0.62350 |
0.13063 | −0.03086 | 1 | 0.15375 | 0.42470 | 0.20068 | 0.12655 | 0.44016 | 0.28707 |
−0.26634 | 0.55200 | 0.15375 | 1 | 0.23640 | 0.04202 | 0.38454 | 0.38379 | 0.81873 |
0.33354 | 0.09405 | 0.42470 | 0.23640 | 1 | 0.55180 | 0.12273 | 0.98434 | 0.34715 |
0.45080 | −0.13604 | 0.20068 | 0.04202 | 0.55180 | 1 | −0.06486 | 0.52126 | 0.06002 |
−0.22219 | 0.36785 | 0.12655 | 0.38454 | 0.12273 | −0.06486 | 1 | 0.25367 | 0.72130 |
0.26165 | 0.19072 | 0.44016 | 0.38379 | 0.98434 | 0.52126 | 0.25367 | 1 | 0.49631 |
−0.17679 | 0.62350 | 0.28707 | 0.81873 | 0.34715 | 0.06002 | 0.72130 | 0.49631 | 1 |
表1. 投资者情绪代理间相关系数
变量 | Mean | Max | Min | Std | Skew | Kurt | ADF(Q(1)) | Obs |
---|---|---|---|---|---|---|---|---|
CEFD | −0.1346 | 0.2145 | −0.3321 | 0.010807371 | 0.3938772 | 3.475964 | 0.000366*** | 243 |
RIPO | 0.6182 | 6.2674 | −0.0521 | 0.460278740 | 3.3143761 | 23.021802 | 0.001641** | 243 |
NIPO | 17.08 | 82.00 | 0.00 | 1.65187142 | 1.0139269 | 3.749026 | 0.000251*** | 243 |
NIA | 40.58 | 297.47 | 2.30 | 250.78311737 | 3.1000325 | 15.530994 | 0.000588*** | 243 |
TURN | 0.2568 | 0.8247 | 0.0852 | 1760.4225226 | 1.5990918 | 6.171296 | 0.000869*** | 243 |
CCI | 104.3 | 127.0 | 85.5 | 122.68631160 | 0.4716420 | 2.149351 | 0.130 | 243 |
CNEPU | 129.92 | 238.32 | 39.53 | 1452.6056805 | 0.1521133 | 3.013674 | 0.003820** | 243 |
表2. 投资者情绪代理变量的描述性统计
注:***、**、*分别代表1%、5%、10%的显著性水平,Q(N)表示为滞后N阶。
y t = c + A 1 ⋅ y t − 1 + A 2 ⋅ y t − 2 + ⋯ A P ⋅ y t − p + ε t (3)
y t 是一个包含 p 个经济变量的向量,代表时间 t 的观测。 c 是一个截距项。 A 1 , A 2 , ⋯ , A p 是包含回归系数的矩阵,它们捕捉了各个变量之间的动态关系。 ε t 是误差项,通常假定为白噪声,代表了未被模型考虑的随机扰动。
我们建立VAR模型的目的不是为了直接分析变量之间的相关关系,而是为了分析当一个误差项发生变化时,这一变化会对整个模型系统带来怎样的动态冲击影响,即脉冲响应函数。
I R F i ( t ) = Δ Y i ( t ) Δ ε i (4)
其中: I R F i ( t ) 是时间 t 时 Y i 对于单位冲击的响应。 Δ Y i ( t ) 表示时间 t 时 Y i 的变化。 Δ ε i 表示 ε i (误差项)的单位冲击。
脉冲响应函数指一个内生变量对残差冲击的响应,即在随机误差项上施加一个标准差大小的冲击后对内生变量的当期值和未来值所带来的影响。相比于静态分析法,本文采用VAR的建模方法,分析投资者情绪与波动率之间的动态关系。数据平稳性使用adf检验已经在第二节说明了,图3为VAR模型的脉冲响应图分析如下:
图3. 各投资者情绪代理变量的VAR模型对已实现波动率的脉冲响应图
贝叶斯方法将每一个参数都视为一个随机变量,加权似然函数则可以作为参数的先验分布,再将先验信息作为权重,使用由先验推导的后验分布进行统计推断。在参数 θ 为一维时通过以下公式获得未知参数的后验分布为式(5):
p ( θ | x ) = h ( x , θ ) m ( x ) = π ( θ ) L ( x | θ ) ∫ Θ π ( θ ) L ( f | θ ) d x (5)
其中 p ( θ | x ) 是参数的联合密度函数,其中包含了 X = ( x 1 , x 2 , ⋯ , x n ) 中的信息,还有总体信息, π ( θ ) 是参数 θ 的先验密度函数, L ( x | θ ) 就被称为似然函数, L ( x | θ ) 计算公式为:
L ( x | θ ) = ∏ i = 1 n p ( x i | θ ) (6)
参数先验分布为 π ( θ ) , Θ 则作为其参数空间,x的边缘密度函数表示为 m ( x ) 因此,可以得到:
m ( x ) = ∫ Θ π ( θ ) L ( f | θ ) d x (7)
由于与 是无关的, m ( x ) 中并没有包含有关 θ 的任何信息,因此条件分布 p ( θ | x ) 可以对 θ 做出推断,就因此贝叶斯估计公式可以近似如下:
p ( θ | x ) ∝ π ( θ ) L ( x | θ ) (8)
函数 p ( θ | x ) 为参数 θ 的后验分布。
通过SCALED-PCA算法的介绍得知,缩放(Scaled)技术指标面板为:
log ( R V t ) = β 0 + β 1 s 1 , t + ⋯ + β N s N , t + ε t (9)
现基于贝叶斯框架缩放(Scaled)技术指标面板为:
log ( R V t ) = α t + β 1 S CEFD , t + β 2 S TURN , t + β 3 S NIA , t + β 4 S IPON , t + β 5 S IPOR , t + β 6 S CCI , t + ε t (10)
矩阵形式为:
Y = β X + ε , ε ~ N ( 0 , σ 2 ) (11)
如果是矩阵形式,则多元线性回归模型因变量服从分布为:
Y ~ N ( β X , σ 2 ) (12)
其中待估斜率参数为 β 6 * 1 与 ε , ε 是平均值为0且方差为 σ 2 的回归扰动。现将多元线性回归的 β 和 σ 2 视为随机变量,则随机变量的多元线性回归的似然度表示为:
l ( β , σ 2 | R V t , s i ) = ∏ m = 1 M p ( R V t | s i , β , σ 2 ) (13)
其中 p ( R V t | s i , β , σ 2 ) 是由参数给出并由 ε t 的条件分布诱导的 R V t 的条件概率密度函数。通常, s i 被认为是固定量。那么
l ( β , σ 2 | R V t , s i ) = ∏ m = 1 M ϕ ( R V t , β s i , σ 2 ) (14)
其中 ϕ ( R V t , β s i , σ 2 ) 是在 R V t 处评估的具有平均值 β s i 和方差 σ 2 的高斯概率密度。
由于关于参数 β , σ 2 的先验信息是未知和缺乏关于模型方差和参数的任何初始信息的情况下,本文选择的是无信息先验,基于Box和Tiao提出的方法,可以使用无信息先验则 β , σ 2 先验分布分别取为:
π ( β ) ∝ 1 , π ( σ ) ∝ 1 / σ (15)
假设 β 和 σ 是相互独立的,因此联合先验分布为:
π ( β , σ ) = π ( β ) π ( σ ) = 1 σ , β ∈ R p + 1 , σ > 0 (16)
由贝叶斯公式,参数 ( β , σ ) 的联合后验分布密度函数为
π ( β , σ | Y , X ) ∝ L ( β , σ | Y , X ) π ( β , σ ) ∝ ( 1 2 π σ 2 ) n 2 e − 1 2 σ 2 [ a S n 2 + ( β − β ^ ) T X T X ( β − β ^ ) ] ∝ 1 σ n + 1 e − 1 2 σ 2 [ a S n 2 + ( β − β ^ ) T X T X ( β − β ^ ) ] (15)
在区间 ( 0 , ∞ ) 上,函数 π ( β , σ | Y , X ) 对 σ 积分求解.最终得到,模型系数向量的后验边缘分布密度,如下
π ( β | Y , X ) ∝ [ a S n 2 + ( β − β ^ ) T X T X ( β − β ^ ) ] − n 2 (17)
由式可知,得到的是自由度为a,位置参数为 β ,精度矩阵为多元t分布密度函数的核.对于给定的Y和X, β 服从多元t分布, β 为条件期望.在平方损失函数下, β 的贝叶斯估计是:
β ^ = β (18)
图4. 各参数贝叶斯回归结果图
通过贝叶斯方法将每一个参数都视为一个随机变量,回归结果见图4。
为了检验SsPCA对中国股市收益的预测能力,我们运行以下标准预测回归模型式(15)。
R V t + n = α + β S t i + ε t + n (19)
其中 R V t + n 表示 t + n 个月的已实现波动率, s t i 表示第t个月的第i个个体情绪指数,n为预测未来n个月。利用估计的斜率t和相应的t统计量来评价个体情感代理对股票收益率的预测性,实证结果见表3。
表3展示了多个综合情绪指数和每个情绪代理对中国股市回报的样本预测结果。如表3可知全部投资者情绪都对股票市场表现出优异的样本内预测能力,估计斜率β为0.001836,表明Ss(mcmc)-pca中每增加一个标准差,股票市场收益率就会增加1.836%。同时Ss(mcmc)-pcadeRMSE最小,拥有最小的预测误差。证实了Ss(mcmc)PCA在预测中国股票市场收益率方面优于其他情绪指数,这意味着Ss(mcmc)PCA总体情绪是中国股票市场的有效和强大的预测器。
综合指数 | α | t检验 | β ( t ) | t检验 | F检验 | RMSE |
---|---|---|---|---|---|---|
Ss(mcmc)-pca | 0.379417 | −1.18120 | 0.001836 | 0.217867 | 0.091194 | 7.341749 |
Spca | 0.325405 | 0.612288 | 0.016626 | 1.574444 | 2.478875 | 7.572099 |
Spls | 0.321279 | 0.602483 | 0.013560 | −1.054562 | 1.112102 | 7.597409 |
Ss-pca | −0.325003 | 0.608204 | 0.002675 | 0.50719 | 0.257242 | 7.613388 |
ISI | −3.23327*** | −2.624619 | 0.059678** | 3.190116 | 10.1768*** | 7.434125 |
CICSI | −4.397254 | −1.430655 | 0.116555 | 1.560464 | 2.435048 | 7.700459 |
表3. 各投资者情绪代理变量预测能力对比
注:***、**、*分别代表1%、5%、10%的显著性水平。
在本文中,我们详细阐述并提出了一种创新的将贝叶斯方法融入投资者情绪测度的方法,用于测量和分析投资者情绪指标,并进一步探讨了该方法在中国股市中预测股票价格波动的有效性。通过构建一个贝叶斯统计框架,能够更准确地捕捉和量化投资者的情绪变化,这对于理解和预测股市动态至关重要。我们的研究结果表明,与传统的投资者情绪测量方法相比,我们的贝叶斯方法在样本内外的预测性能上都显示出显著的优势。具体来说,该方法不仅在样本内测试中胜过其他五个主要的综合情绪指标。
贝叶斯方法的优势主要源于其灵活性和对不确定性的有效处理。该框架允许我们整合来自不同来源的信息,并考虑信息之间的潜在关联性,从而提高了情绪指标的准确性和预测股价波动的能力。通过贝叶斯方法,可为理解和应对市场情绪波动提供了一种新的有效工具。
湖北省教育厅科学研究计划指导性项目-B2022001。
余佳雄,丁咏梅. 投资者情绪预测已实现波动率——基于Scaled (Bayesian)-PCA模型Investor Sentiment Forecasting Realised Volatility—Based on the Scaled (Bayesian)-PCA Model[J]. 运筹与模糊学, 2024, 14(02): 1435-1445. https://doi.org/10.12677/orf.2024.142238
https://doi.org/10.1111/j.1540-6261.1970.tb00518.x
https://doi.org/10.1186/s40854-020-00198-x
https://doi.org/10.1016/j.pacfin.2022.101739
https://doi.org/10.3390/math10081317
https://doi.org/10.3390/math11143128
https://doi.org/10.1155/2021/6672677
https://doi.org/10.1504/GBER.2023.131193
https://doi.org/10.1111/j.1540-6261.2006.00885.x
https://doi.org/10.1016/j.irfa.2022.102028
https://doi.org/10.1016/j.iref.2022.10.007
https://doi.org/10.1146/annurev-financial-092214-043752
https://doi.org/10.1016/j.iref.2013.03.002
https://doi.org/10.1016/S0304-405X(01)00055-1
https://doi.org/10.1287/mnsc.2021.4020