一种基于加权均方误差系数的评价因子筛选方法

期刊菜单

一种基于加权均方误差系数的评价因子筛选方法
An Evaluation Factor Screening Method Based on Weighted Mean Square Error Coefficients

DOI:10.12677/SA.2021.106101,PDF,HTML,XML,下载: 385浏览: 1,407
作者:张英雪,许婷：贵州民族大学数据科学与信息工程学院，贵州贵阳；吴有富^*：贵州交通职业技术学院，贵州贵阳
关键词:评价因子；综合指数；全局主成分分析；加权均方误差系数；Evaluation Factor；Integrated Index；Global Principal Component Analysis；Weighted Mean Square Error Coefficient

摘要:评价因子的筛选一直是统计分析中的热门话题，目前对因子筛选方法很多，如综合指数法、全局主成分分析方法等；这些方法在特定的环境中均得到充分的运用，但是当因子间的相关性较强时，这些方法的分析不理想，如在交通助推农村产业的分析中就得不到与实际相符的结果。为了克服此问题，本文提出了一种加权均方误差系数法；并以贵州交通对农村产业的影响为例进行实证分析。实验结果表明，我们的方法是有效。

Abstract:Evaluation factors screening has always been a hot topic in statistical analysis. At present, there are many methods for screening factors, such as the integrated index method, the global principal component analysis method, etc.; these methods are fully used in specific environments, but when the correlation between factors is strong, the analysis of these methods is not ideal. For example, in the analysis of the traffic boosting rural industry, the results are not in line with the actuality. To overcome this problem, a weighted mean square error coefficient method is proposed in this paper; and the impact of transportation on rural industries in Guizhou is used as an example for empirical analysis. The experimental results show that our method is effective.

文章引用：张英雪, 吴有富, 许婷. 一种基于加权均方误差系数的评价因子筛选方法[J]. 统计学与应用, 2021, 10(6): 963-974. https://doi.org/10.12677/SA.2021.106101

1. 引言

评价因子进行筛选一直都是学者们关注的点，然而现在对评价因子筛选的方法很多，例如综合指数、全局主成分分析等方法，无论何种方法，评价指标及其数量的选取、指标权重与评价标准的设定是两个非常重要的方面，并且选择合理的评价指标和评价方法是得出合理结论的前提。张艳芹 [1] (2001)通过对均值化后的数据进行标准化系数法加权，进而计算得指标的综合指数，并对综合指数进行非参数检验，从而选取对企业评价的指标。徐雅静 [2] (2006)通过变量聚类与全局主成分分析相结合的方法，对我国普通高等教育发展水平进行评价。但是当因子间的相关性较强时，这些方法的分析不理想，如在交通助推农村产业的分析中就得不到与实际相符的结果。为了克服此问题，我们提出了一种加权均方误差系数法。

2. 指标筛选原理

本文方法的提出是基于综合指数和全局主成分分析局限性，故在此简述这两种方法。

2.1. 综合指数法

该方法是基于加权平均的推广。主要包括两个过程：评价指标的无量纲处理和权重的确定。具体步骤如下：

1) 无量纲处理：通过均值化、极值标准化等方法对数据进行无量纲处理，得到预处理的数据 $Z_{i j}$

2) 权重的计算：通过计算指标的均值( ${\bar{x}}_{j}$ )和标准差( $s_{j}$ )，得到标准差系数

$V_{j} = \frac{s_{j}}{{\bar{x}}_{j}}$ (1)

将 $V_{j}$ 归一化处理，得权重：

$w_{j} = \frac{V_{j}}{\sum_{j = 1}^{n} V_{j}}$ (2)

3) 计算综合指数：

$F_{i} = \sum_{j = 1}^{n} Z_{i j} \times w_{j}$ (3)

2.2. 全局主成分分析法

全局主成分分析方法的具体步骤如下：

1) 建立时序立体数据表 $x = {(x^{1}, x^{2}, \dots, x^{t})}_{T n \times p} = {(x_{i j})}_{T n \times p}$ ，Tn表示样本个数，p表示指标数量。

2) 对数据进行标准化。

3) 定义全局数据表的重心：

$g = \sum_{t = 1}^{T} \sum_{i = 1}^{n} q_{i}^{t} e_{i}^{t}$ (4)

$q_{i}^{t}$ 表示t时刻样本点 $e_{i}$ 的权重，进而得到全局协方差矩阵V，也即是x的相关系数矩阵：

$V = \sum_{t = 1}^{T} \sum_{i = 1}^{n} q_{i}^{t} (e_{i}^{t} - g) {(e_{i}^{t} - g)}^{'}$ (5)

4) 求协方差V的前m个特征值 $λ_{1} \geq λ_{2} \geq \dots \geq λ_{m}$ ，及对应的特征向量 $μ_{1}, μ_{2}, \dots, μ_{m}$ 。

5) 计算主成分及方差贡献率，第h主成分为 $F_{h} = {μ^{'}}_{h} x$ ；

方差贡献率：

$a_{k} = \frac{λ_{i}}{\sum_{i = 1}^{p} λ_{i}}$ (6)

累计方差贡献率：

$a_{1} + a_{2} + \dots + a_{n} = \frac{\sum_{i = 1}^{m} λ_{i}}{\sum_{i = 1}^{p} λ_{i}}$ (7)

选出的主成分 $F_{1}, F_{2}, \dots, F_{m}$ 使累计方差贡献率接近85%。

6) 求因子载荷矩阵 $A = (r_{i j})$ ， $r_{i j}$ 是 $x_{i}$ 和 $F_{i}$ 的相关系数， $r_{i j}$ 表示第i个变量 $x_{i}$ 在第j个共因子 $F_{j}$ 上的负荷。

7) 计算指标的主成分系数，由主成分分析结果的因子载荷矩阵中第i列数值除以对应第i个特征值的开方求得。

8) 求指标权重：

$w_{m} = \sum_{i = 1}^{p} \frac{a_{m i} * α_{i}}{p}$ (8)

$a_{m i}$ 表示第i个主成分中第m个基础指标的系数。

9) 求综合评价函数：

$F = \sum_{i = 1}^{m} \frac{λ_{i}}{q} * f_{i}$ (9)

q表示各主成分的特征根之和， $f_{i}$ 是未经标准化的第i个主成分得分。

3. 加权均方误差系数法

基于上述综合指数法和全局主成分分析法的局限性和思想，本文提出了加权均方误差系数评价因子筛选方法。通过计算两序列之间的均方误差(MSE)来反应两组序列之间的波动情况，进而算得序列之间的显著系数，由于每个因子所做的贡献不一致，及所占权重不一样，通过标准差系数法计算权重，从而算得显著度。显著度越大表明与参考序列关联性越强，则表明该评价因子有效。具体步骤如下：

1) 确定参考序列和比较序列

2) 计算参考序列与比较序列之间的均方误差：

$\frac{{(x_{0} (k) - x_{i} (k))}^{2}}{n} (k = 1, \dots, n; i = 1, \dots, m)$ (10)

n表示样本个数，m表示指标个数。

3) 计算显著系数：

$ξ_{i} (k) = \frac{\min_{i} \min_{k} \frac{{(x_{0} (k) - x_{i} (k))}^{2}}{n} + ρ \cdot \max_{i} \max_{k} \frac{{(x_{0} (k) - x_{i} (k))}^{2}}{n}}{\frac{{(x_{0} (k) - x_{i} (k))}^{2}}{n} + ρ \cdot \max_{i} \max_{k} \frac{{(x_{0} (k) - x_{i} (k))}^{2}}{n}}$ (11)

其中 $ρ$ 为分辨系数，一般取 $ρ = 0.5$ 。

4) 通过标准差系数法计算权重：计算标准差系数：

$V_{k} = \frac{σ_{k}}{μ_{k}} (k = 1, \dots, n)$ (12)

其中， $μ_{k}$ 和 $σ_{k}$ 分别为第k个样本的均值和标准差，对标准差系数进行归一化处理，计算权重：

$w_{k} = \frac{V_{k}}{\sum_{k = 1}^{n} V_{k}}$ (13)

5) 计算显著度：

$r_{i} = \sum_{i = 1}^{n} w_{k} \cdot ξ_{i} (k)$ (14)

4.实证分析

为了检验我们方法的有效性，我们选取贵州交通对农村产业的影响进行实证分析。由于所选的样本相关性较强，参考徐静雅(2006)的变量聚类与选取典型相关法相结合的思想，在进行贵州交通对农村产业的影响分析时，先对交通变量进行系统聚类，再运用加权均方误差系数法进行典型选取，进而选出交通对农村产业的影响因子。

4.1. 构建指标体系和数据来源

交通助推农村产业革命，交通指标从公路里程、投资、车辆、旅客等各个方面选取，农村产业选取第一产业、第二产业、第三产业。因此本文通过贵州省宏观经济库¹选取贵州省2001年~2019年有关交通和第一产业、第二产业、第三产业的数据，分析哪些交通指标分别对第一产业、第二产业和第三产业有显著促进作用，对第一产业、第二产业和第三产业没有促进作用或促进不明显，应于剔除。对交通指标和第一产业、第二产业和第三产业的符号说明见表1。由于指标之间存在较强相关性，全都选取用来分析，会存在冗余的现象，介于此要对32个交通指标进行指标筛选。

Table 1. Symbol description

表1. 符号说明

4.2. 相关分析

在进行指标筛选前先分别计算交通指标与第一产业、第二产业和第三产业的相关系数，通过计算指标之间的Pearson Correlation分析指标之间存在正向还是反向的相关关系。相关系数的计算公式为：

$r = \frac{\sum (x - \bar{x}) (y - \bar{y})}{\sqrt{\sum {(x - \bar{x})}^{2} \sum {(y - \bar{y})}^{2}}} = \frac{L_{x y}}{\sqrt{L_{x x} L_{y y}}}$ (15)

从相关系数表2可以看出三级公路(x₃)、等外公路(x₅)和乡镇通公路率(x₃₀)分别和第一产业、第二产业和第三产业的相关系数都较低，甚至三级公路(x₃)对第一产业存在负相关，说明即使偏远郊区的公路里程逐渐增加，但是对于第一产业、第二产业和第三产业的促进作用不明显，应于剔除。在2017年贵州已经实现了建制村通油路率达100%，黔货能出山，人也能走出去，进而越来越多的年轻人出去打工、进厂，成为留守老人和留守儿童的人越来越多，从而导致农村劳动力低下，渐渐的地荒了，所以，第一产业与三级公路(x₃)、等外公路(x₅)和乡镇通公路率(x₃₀)的相关系数都较低甚至为负，符合现状。第二产业和第三产业分别主要指工业和服务业，即使乡村的道路通行，对于工业和服务业的是存在促进作用，但是促进作用不显著。高速公路车辆通行费收入(x₇)、民用汽车拥有量(x₈)、载客汽车(x₉)、高速公路里程(x₁₈)和第一产业的相关程度很大，相关系数都高达0.99。民用车辆和高速公路里程的增加，人们想去哪里都方便。贵州各个有特色的地方都通路了，民用车辆的增加和高速公路增加相结合促进旅游业和新农家乐的发展，进而第三产业得到了显著的促进。四级公路(x₄)、高速公路车辆通行费收入(x₇)、载货汽车(x₁₀)、公路货物运输量(x₁₂)、公路货物周转量(x₁₃)、等级公路里程(x₁₇)、高速公路里程(x₁₈)和第二产业的相关系数也是高达0.99，主要都是和货物相关的数据，和第二产业息息相关。民用汽车拥有量(x₈)、私人汽车拥有量(x₁₁)、公路货物周转量(x₁₃)、等级公路里程(x₁₇)和第三产业的相关系数也高达0.99，第三产业主要是服务业，现在人民的生活水平提升，不再满足于物质需求，更依赖于满足精神需要，通过民用车辆拥有量的增加，可以看出人民经济提升后，更依赖于享受服务。根据第一产业、第二产业和第三产业与交通的相关系数得出以上结果都是符合贵州省的现状。

Table 2. Correlation coefficients for the three industries and transport indicators

表2. 三大产业与交通指标的相关系数

4.3. 聚类分析

通过徐静雅(2006)的变量聚类 + 选取典型相关法的思想，先对交通指标进行变量聚类。聚类是将研究对象进行分类，使得类与类之间距离最大，点与点之间的距离最小。本文采用系统聚类，其原理：将每一个点都看成单独的一类，通过离差平方和(Ward’s method)计算类与类之间的距离，选择距离最近的合成新类，循环反复直到所有的点都在同一类为止，最后结果会给出谱系图。

系统聚类需要解决三个问题：确定点与点之间的距离；确定类与类之间的距离；聚类数目的确定。

1) 计算点与点之间的距离，主要方法有：绝对值距离、欧氏距离、切比雪夫距离、马氏距离、余弦距离。本文采用欧氏距离：

$d_{i j} = \sqrt{\sum_{k = 1}^{n} {(x_{i k} - x_{j k})}^{2}}, i = 1, 2, \dots, m; j = i + 1, i + 2, \dots, m$ (16)

2) 计算类与类之间的距离，主要方法有：类平均法、可变法、重心法、最长距离法、最短距离法、离差平方和。这里采用离差平方和法：假设原样本为q类，则第i类的离差平方和定义为：

$S_{i} = \sum_{j = 1}^{N_{i}} {(x_{i j} - {\bar{x}}_{i})}^{'} (x_{i j} - {\bar{x}}_{i})$ (17)

其中 ${\bar{x}}_{i}$ 为第i类变量均值， $N_{i}$ 为第i类变量数量，假设将 $G_{p}$ 和 $G_{q}$ 合并成一个新类 $G_{r}$ ，则定 $G_{p}$ 和 $G_{q}$ 的平方距离为：

$D_{p q}^{2} = S_{r} - (S_{p} + S_{q})$ (18)

其中 $S_{p}$ 和 $S_{q}$ 分别为 $G_{p}$ 和 $G_{q}$ 类的离差平方和， $S_{r}$ 为新类 $G_{r}$ 的离差平方和。

3) 聚类数目的确定。聚类数目的确定一直都是研究难点，聚类数目确定得合适将事半功倍。判断聚类数目的方法：调整兰德系数法 [3]、贝叶斯准则 [4]、K平均算法、K中心聚类算法(K-mediods)、基于Calinsky Criterion准则、基于AP算法 [5] (Affinity propagation Clustering Algorithm)等等。本文运用AP算法来确定聚类数目。AP算法具体步骤：

1) 再开始AP算法前，将吸引度矩阵R和归属度矩阵初始化为0矩阵；

2) 更新吸引度矩阵：

$r_{t + 1} (i, k) = {\begin{cases} S (i, k) - \max_{j \neq k} {a_{t} (i, j) + r_{t} (i, j)}, i \neq k \\ S (i, k) - \max_{j \neq k} {S (i, j)}, i = k \end{cases}$ (19)

3) 更新归属度矩阵：

$a_{t + 1} (i, k) = {\begin{cases} \min {0, r_{t + 1} (k, k) + \sum_{j \neq i, k} \max {r_{t + 1} (j, k), 0}}, i \neq k \\ \sum_{j \neq k} \max {r_{t + 1} (j, k), 0}, i = k \end{cases}$ (20)

4) 根据衰减系数 $λ$ 对两个公式进行衰减

$\begin{array}{l} r_{t + 1} (i, k) = λ * r_{t} (i, k) + (1 - λ) * r_{t + 1} (i, k) \\ a_{t + 1} (i, k) = λ * a_{t} (i, k) + (1 - λ) * a_{t + 1} (i, k) \end{array}$ (21)

一直重复步骤2~步骤4，直到矩阵稳定或者达到最大迭代次数，算法结束，最终取 $a + r$ 最大的k作为聚类中心。

由于指标交通指标存在不同量纲，然而不同量纲无法进行准确的数据分析，所以要消除指标量纲带来的影响。在聚类分析之前对数据进行无量纲化处理，将数据Z-score标准化到[−1, 1] [6]，使得不同单位和量纲的指标处于同一数量级，避免了不同量纲对指标筛选造成的影响。再运用AP算法客观的确定聚类数目，为了保证聚类数目的准确性，亦采用了k-平均聚类算法对聚类数目进行再次确定，从而和AP算法进行综合分析，分析可知交通指标最佳聚类数目为7类。对交通指标，使用SPSS软件系统聚类中的Ward’s method对其进行R型聚类，点与点之间的距离采用欧氏距离，得到聚类结果见表3和聚类谱系图见图1。

Table 3. Clustering results

表3. 聚类结果

Figure 1. Clustering spectrum chart

图1. 聚类谱系图

4.4. 交通指标选取

构建的交通指标体系并不都对第一产业、第二产业和第三产业有显著的助推作用，有些指标对农村产业没有明显作用，可能存在冗余或者抑制作用，需将其剔除。聚类分析已经将交通指标聚为7类，本文分别以第一产业、第二产业和第三产业为参考序列，运用加权均方误差系数法分别计算农村产业与交通指标的显著度，再在每一类中分别选取对第一产业、第二产业和第三产业显著度最大的指标。

Table 4. Significance of the three major industry and transport indicators

表4. 三大产业与交通指标的显著度

通过加权均方误差系数法得出交通指标与第一产业、第二产业和第三产业的显著度见表4，分析可知第一类中一级公路(x₁)、路网及农村公路建设投资(x₁₉)和汽车站场投资(x₂₀)三个指标，汽车站场投资(x₂₀)对于第一产业、第二产业和第三产业的显著度都是最大的，并且显著度都在0.93以上。对于第二类中二级公路(x₂)、四级公路(x₄)、载货汽车(x₁₀)、公路货物运输量(x₁₂)、等级公路里程(x₁₇)、建制村通油路率(x₂₉)六个指标，公路货物运输量(x₁₂)对于第一产业、第二产业和第三产业的显著度都是最大，并且显著度都在0.89以上。对于其余几类，在每类中分别是建制村通公路率(x₃₁)、公路旅客周转量(x₁₅)、国道(x₂₅)、交通运输、仓储和邮电通信业(x₂₄)对第一产业、第二产业和第三产业的显著度最大。不同的是，在第五类中，高速公路车辆通行费收入(x₇)、民用汽车拥有量(x₈)、载客汽车(x₉)、私人汽车拥有量(x₁₁)、公路货物周转量(x₁₃)、高速公路里程(x₁₈)六个指标，对于第一产业，民用汽车拥有量(x₈)的显著度最大，而对于第二产业和第三产业，公路货物周转量(x₁₃)的显著度最大。因此通过在每类中分别选取与第一产业、第二产业和第三产业显著度最大的交通指标，结果为：

第一产业选取的交通指标为：民用汽车拥有量(x₈)、公路货物运输量(x₁₂)、公路旅客周转量(x₁₅)、汽车站场投资(x₂₀)、交通运输、仓储和邮电通信业(x₂₄)、国道(x₂₅)和建制村通公路率(x₃₁)。

第二产业选取的交通指标为：公路货物运输量(x₁₂)、公路货物周转量(x₁₃)、公路旅客周转量(x₁₅)、汽车站场投资(x₂₀)、交通运输、仓储和邮电通信业(x₂₄)、国道(x₂₅)和建制村通公路率(x₃₁)。

第三产业选取的交通指标为：公路货物运输量(x₁₂)、公路货物周转量(x₁₃)、公路旅客周转量(x₁₅)、汽车站场投资(x₂₀)、交通运输、仓储和邮电通信业(x₂₄)、国道(x₂₅)和建制村通公路率(x₃₁)。

汽车站场投资(x₂₀)、国道(x₂₅)的增加和建制村通公路率(x₃₁)的提高为交通推动产业发展奠定了基础，使得通行无阻，促进了贵州旅游业的发展，旅游业带动一方经济的发展，环环相扣。贵州省是一个民族特色很浓厚的省份，然而也是比较贫困的省份。在交通不发达时期，人民想去民族特色浓厚的地方体验民族文化比较艰难。交通的改善，山里的路通了，让具有浓厚民族文化的鼓楼，村寨，吊脚楼成为了旅游盛地。民用汽车拥有量(x₈)和公路旅客周转量(x₁₅)的增加是人民出行的基础，针对旅游有两种说法：自驾游和穷游，自驾游的增多进而就间接代表民用汽车拥有量增多，穷游的即通过选择公用出行方式，进而使得公路旅客周转量增多。公路货物运输量(x₁₂)和公路货物周转量(x₁₃)主要为第二产业和第三产业提供保障，公路货物运输量和公路货物周转量的稳固增加，进而代表着第二产业和第三产业稳固发展。进而贵州逐步发展“交通 + 生态旅游”，旅游业同时带动第一产业、第二产业和第三产业稳固发展。

所以，通过交通对农村产业的影响结果分析，得到民用汽车拥有量(x₈)、公路货物运输量(x₁₂)、公路货物周转量(x₁₃)、公路旅客周转量(x₁₅)、汽车站场投资(x₂₀)、交通运输、仓储和邮电通信业(x₂₄)、国道(x₂₅)和建制村通公路率(x₃₁)对农村产业的影响较强，进而可知加权均方误差系数筛选出来了交通评价因子符合实际且有效。

5. 结语与建议对策

本文提出的加权均方误差系数法对评价因子进行筛选，并将此方法运用到贵州交通对农村产业的影响进行实证分析，结果筛选出对农村产业显著性较高的7个交通指标，通过上述的分析，表明提出的方法筛选出来的交通评价因子是有效的。也将该方法与灰色关联法进行比较，发现提出的方法提高了数据结果的精度，进而说明了加权均方误差优。并且通过选出的交通评价因子，可以给贵州交通有关部门进行建议，对于有些还未过上小康生活的地方，可以通过改善交通来改变生活，并带领大家致富。道路的通行，带动大量人口流动，进而发展旅游业和有特色的农业，进而有效的助推农村产业，最终实现农业强、农村美、农民富。

NOTES

¹数据来源：贵州省宏观经济数据库(https://guizhou.gov.cn/)。

参考文献

[1]	张艳芹. 非参数检验方法在指标选取中的应用[J]. 上海统计, 2001(5): 23-26.
[2]	徐雅静, 汪远征. 变量聚类——全局主成分分析在我国普通高等教育发展水平评价中的应用[J]. 数理统计与管理, 2006(5): 566-573.
[3]	Hubert, L. and Arabie, P. (1985) Comparing Partitions. Journal of Classification, 2, 193-218. https://doi.org/10.1007/BF01908075
[4]	Schwartz, G. (1978) Estimating the Dimension of a Model. The Annals of Statistics, 6, 461-464. https://doi.org/10.1214/aos/1176344136
[5]	Dueck, D. and Frey, B.J. (2007) Non-Metric Affinity Propagation for Unsupervised Image Categorization. 2007 IEEE 11th International Conference on Computer Vision, Rio de Janeiro, 14-21 October 2007. https://doi.org/10.1109/ICCV.2007.4408853
[6]	韩胜娟. SPSS聚类分析中数据无量纲化方法比较[J]. 科技广场, 2008(3): 229-231.

为你推荐

友情链接