1. 引言
近年来,随着金融市场的不断发展和变化,投资者对于构建最优的投资组合以平衡风险与回报的需求日益迫切。为了解决这一问题,研究者们开始探索各种方法和模型来优化投资组合的构建过程。资产投资组合优化问题涉及在资产和风险之间进行权衡,通过在不同资产上进行投资以实现利益最大化,形成最佳的投资组合,这是当前面临的核心挑战。
最初,风险的衡量方法由Markowitz (1952) [1]提出的方差理论开始,许多学者都在该理论基础上展开了深入研究。然而,方差理论只考虑了资产收益的波动性,不能全面考虑投资者对不同类型风险的偏好和敏感度,因此没有充分实现投资者最佳投资组合的目标。之后,Konno等(1993) [2]提出了均值–绝对偏差模型,以绝对偏差而非方差来衡量风险。然而,这种方法对尾部风险的度量能力有限。于是,Markowitz (1959) [3]提出了半方差来度量风险。随后,VaR (Value at Risk)模型和CvaR (Conditional Value at Risk)模型成为常用的风险度量方法之一。Gaivoronski & Pflug (1999) [4]将VaR引入投资组合中进行建模求解,然而,VaR有一些固有的局限性。它只关注损失超过某个临界值的部分,而不考虑超过该临界值后的损失情况,导致一些实际情况并不能考虑充分。同时,VaR在极端市场情况下的表现不够稳健,因为它通常假设损失的分布是固定的。所以后来,Rockafellar & Uryasev (2000) [5] [6]研究了CVaR,并指出VaR不满足次可加性的性质。但它的计算较为复杂,尤其是当涉及到大规模投资组合或高维数据时。这种复杂性导致计算和优化难度增加,从而在实际应用中变得不够高效。同时,它的准确性高度依赖于输入数据的质量和准确性。如果数据存在噪声或不完全,会影响CVaR的计算结果,从而影响投资决策的有效性。在国内,牛昂(1997) [7]研究了VaR的计算方法,并对其进行了比较,然而,这种计算方法依赖于对收益分布的特定假设,但在实际的金融市场中,资产收益的分布可能呈现更复杂的特征,如厚尾分布或非对称分布等,这些都可能影响VaR的准确性。随后,姚刚(1998) [8]、刘宇飞(1999) [9]、王春风(2000) [10]等文献提出了改进VaR计算方法的方向,虽然VaR的计算结果更为精确,但这些方法还是没有解决对收益分布的特定假设问题。
为了进一步提高投资组合模型在实际生活中的应用,准确估计参数成为其中的核心问题之一。许多研究者尝试采用鲁棒优化的方法来解决参数难以估计的挑战。Lobo等(1998) [11]提出了鲁棒均值–方差模型,该模型在考虑投资损失最严重情况下,追求最小偏差。虽然考虑了模型的不确定性,但仍然需要对不确定性进行某些假设或简化,这些假设不完全符合实际金融市场条件,从而影响了模型的实际效果,同时在面对极端市场情况或极端事件时,模型的表现仍然不够理想。市场的非线性特征和突发事件超出了模型的处理能力。Zhu和Fukushima (2009) [12]则提出了鲁棒-CVaR投资组合优化模型,并将问题转化为半定规划问题,但构建这个模型需要一个确定的不确定性集来描述输入数据的可能变化范围,这个不确定性集难以构造,从而导致模型过于保守或不够精确,而且随着金融市场的不断变化,这个不确定性集也需要不断变化。另外,Lei等(2009) [13]提出了基于均值-CVaR的鲁棒优化模型,将问题最终转化为二次规划问题,并广泛应用于投资组合领域。模型考虑了尾部风险的同时提升了投资组合的稳健性,但对于高维数据或大规模投资组合二次规划的求解是非常复杂的,这就限制了模型的实际应用。
除了参数估计外,实际金融数据通常是高维且规模庞大的数据集,这也会影响投资组合模型的输出结果。为了解决这个问题,研究者们尝试使用K-means聚类对数据进行降维处理。然而,传统的K-means聚类方法在处理大规模复杂数据集时效果不佳。为了改进这一问题,杨娟等(2017) [14]提出了改进的K-means聚类算法,虽然聚类的速度得到了优化,但初始聚类中心没有明确给出,而是随机选取;杜洪波等(2018) [15]则通过改进的密度峰值算法对K-means算法进行了优化,虽然通过密度峰值确定了聚类中心,但一开始的聚类数目没有根据数据特征进行选取而是随机选取,容易导致聚类效果不佳;而熊开玲等(2017) [16]则通过核密度估计的方法对K-means聚类进行了优化,通过确定半径阈值和密度阈值来确定了初始聚类数目和初始聚类中心。
综上所述,为了更好地构建投资组合模型,本文采用了窗口滚动实验方法。选取了包含100只股票的日收益数据作为实验数据集,并利用核密度估计分析了数据集的高斯核密度分布。随后,根据密度分布设定了半径阈值和密度阈值,以确定K-means聚类的初始聚类中心和聚类簇数,从而对数据集进行了聚类降维处理,让投资组合能够适应高维数据。将处理后的数据集代入投资组合模型中,实验结果表明,经过聚类处理的投资组合模型具有更高的收益。这些研究结果对于投资者和机构有效地管理投资组合风险并提高投资绩效具有重要的学术和实践价值。
2. 研究方法
2.1. 核密度估计
核密度估计是一种用于估计随机变量概率密度函数的非参数方法,能够通过数据样本来推断数据的概率密度分布,从而更好地理解数据分布的特征,为后续的数据分析和建模提供基础,因此被广泛应用于各个领域。其定义如下所示:
假设
是属于R的独立分布随机变量,分布密度函数为
,则
(1)
其中
是
的核密度估计,h为窗宽,
为核函数。
令
,则(1)式可写成
(2)
根据以上式子我们可以发现核密度估计不仅与数据集本身有关,还和核函数与窗宽的选取有关。
通过熊开玲等[16]使用核密度估计对K-means聚类的优化,我们可以解决多维数据的核密度估计问题。假设
,
,其中
是一个d维向量。令
是第j维概率密度函数。则
。d维的高斯核函数为
(3)
高斯核密度估计图如下图1所示。
Figure 1. Gaussian kernel density estimation plot
图1. 高斯核密度估计图
由图1所示,我们可以通过密度分布设定密度阈值和半径阈值,从而确定k-means聚类的初始聚类中心和聚类簇数k。具体做法是将小于半径阈值的数据点归为一类,并且将大于密度阈值的极大值点作为初始聚类中心。
2.2. 均值-CVaR模型
在传统形式下均值-CVaR模型可以表示为
(4)
其中u代表的是期望收益,
代表的是投资权重比,
表示厌恶系数,r表示置信水平。通过Rockafellar & Uryasev [17] [18]对条件风险价值的定义
可以表示为:
(5)
假设损失
,我们把(5)式代入(4)式可以得到均值-CVaR模型可以变形为
(6)
分布鲁棒优化模型是考虑在最坏分布的情况下投资者达到最佳收益,传统的优化模型为
(7)
2.3. 核密度估计的分布鲁棒均值-CVaR模型
通过构建概率空间,(6)式可以变化为
(8)
其中
,r和
分别表示置信水平和厌恶系数,
。P是资产收益
的概率分布函数。如果
独立同步来自函数P,则(8)式近似于
(9)
其中
,由于收益金融数据容易出现维数灾难,所以我们通过核密度估计方法,将它转化为有限维优化问题,假设随机变量v,它的概率密度函数
的核密度估计可以表示为:
(10)
其中核函数
并且满足
,
,
,
,为带宽,
为数据集,
表示权向量。
由(10)式可得(8)式中
的估计形式为:
(11)
对于上面公式的表达式我们可以做出如下假设
,
。如果
,则
,并且它们满足以下条件
1)
,
2)
是联合凸函数,
3)
是
的衰退函数
,同时
。
如果知道参数
,并且给出权向量
,我们可以知道核密度估计均值-CVaR模型,如下形式
(12)
由于权向量
不能够准确预估,所以我们需要分布鲁棒优化,即在给定的最坏分布下,我们希望达到的投资损失最小,模型公式如下所示:
(13)
由于(13)式涉及到维数问题,因此我们采用核密度估计的方法,并结合
散度,将问题转化为凸优化问题。我们假设样本
独立同分布于
,则不确定集为
(14)
其中权向量定义为
,
。
如果我们知道参数
,并且把(13)式的不确定集I换成(14)式,则可以得到核密度估计的分布鲁棒均值-CVaR模型
(15)
由(12)式可得,(15)式可以变化为如下形式
(16)
下面我们将把(16)式转化为凸优化问题。其中(16)式的最大化问题的拉格朗日方程为
(17)
假设
,由于
,所以
表示的意义是
并且
。根据
的规律性,具有强对偶性成立,即
。则对偶目标函数满足
(18)
其中函数
的共轭函数
满足这些形式:
,
。
由公式(18)模型(16)最后可以转化为
(19)
3. 数值实验
根据对我国股票市场实际情况及上述模型理论的综合考量,我们选取了恒生指数100的股票收益率数据作为研究对象,目的是运用该理论模型进行深入分析。我们利用Matlab软件编写了相关程序,对这些股票的历史数据进行了全面的分析和优化。通过比较在有聚类和无聚类条件下,模型对投资组合收益率的影响,通过分析在有聚类和无聚类条件下,实验得到的夏普比率、平均换手率以及模型运行时间等数据结果,我们得出了一些相关结论。
3.1. 实验准备
在这个实验中,采用了滚动窗口的方法,选取了恒生指数100的股票收益率数据作为研究对象,共有
个数据集。其中,我们设置了窗口宽度
天,从
天起,用前
天的数据计算最佳投资权重,然后利用得到的投资权重计算第
天的收益率。每次滚动时,我们增加一个新的数据并去除一个旧的数据,总共进行了
次滚动。其中实验参数为:
;
;
;
。
对经过核密度估计优化的聚类结果进行了细致评估,并将聚类后的数据集代入到投资组合模型中。通过采用滚动窗口实验的方法,比较了计算得出的收益率曲线、夏普比率、平均换手率以及模型运行时间等数值结果,以此来深入探索聚类对投资组合模型的影响。
3.2. 数值结果
根据我们改进的聚类方法,可以确定选定数据集的聚类中心,如图2所示。
Figure 2. Cluster centroids plot
图2. 聚类中心图
从图中我们可以看出聚类中心为5个点,所以我们可以确定聚类簇数k为5。
我们将经过聚类处理的数据集输入到投资组合模型中,并绘制了具有和没有聚类的投资组合模型的收益率曲线,如图3所示和实验的数值结果,如表1所示。
Figure 3. Yield curve plot
图3. 收益率曲线图
Table 1. Numerical result
表1. 数值结果
评价指标 |
无聚类 |
有聚类 |
平均收益率 |
0.0016 |
0.0017 |
收益率标准差 |
0.0106 |
0.0111 |
夏普比率 |
0.1502 |
0.152 |
平均换手率 |
0.0028 |
0.0000 |
模型运行时间 |
2183秒 |
55.21秒 |
根据图3和表1的结果,我们可以观察到经过聚类后的模型具有更高的收益率,并且夏普比率也更高,这意味着可以实现更高的投资回报。与此同时,聚类后的模型平均换手率较低,这表明投资者可以减少高额的交易费用,并且显著缩短模型的运行时间。因此,我们可以得出结论,具有聚类的模型在投资效果上更为出色。
4. 结论
本文探索了综合运用聚类、核密度估计以及分布鲁棒均值-CVaR模型的方法,以提升股票投资组合的构建和风险管理能力。通过对股票的风险度量、收益率曲线以及最优权重的计算进行分析,得出以下结论:
1) 在确定聚类数目和选择聚类中心的过程中,我们设定了初始聚类中心和聚类数目,这样实验结果不会因为聚类而随意改变模型的投资实验结果。
2) 通过实验结果我们可以得出,在投资组合模型中使用聚类能够产生更高的收益,相比于没有使用聚类的模型,能够提高夏普比率,并且降低平均换手率,同时也提高了模型的运算速率。
3) 结合聚类的投资组合模型能够构建更出色的投资组合,在重新平衡投资风险的同时,可以让投资者获得更高的回报。这表明基于改进的聚类和核密度估计的分布鲁棒均值-CVaR投资组合模型具有更广泛的适用性。
基金项目
国家自然科学基金项目(12161075),江西省自然科学基金重点项目(20212ACB201006)。
NOTES
*通讯作者。