我们给出了样本主成分的性质及证明,分两种情况讨论:从S出发求主成分和从R出发求主成分。在从S出发求主成分中,给出了7个性质(S1)-(S7)及它们的证明,这些性质说明的关系在图1中得到了充分的展现。同样,在从R出发求主成分中,给出了7个性质(R1)-(R7)及它们的证明,这些性质说明的关系在图2中得到了充分的展现。最后我们给出了两个数值模拟的例子来验证性质(S1)-(S7)和(R1)-(R7)的正确性。 We give the properties and proofs of the sample principal component, and discuss them in two different conditions: from S on to calculate principal component and from R on to calculate principal component. From S on to calculate principal component, we give 7 properties (S1)-(S7) and their proofs, and the relationships stated by these properties get full display in Figure 1. Similarly, from R on to calculate principal component, we give 7 properties (R1)-(R7) and their proofs, and the relationships stated by these properties get full display in Figure 2. Finally we give two numerical simulation examples to verify the correctness of properties (S1)-(S7) and (R1)-(R7).
张应应,荣腾中
重庆大学数学与统计学院统计与精算学系,重庆
收稿日期:2017年2月25日;录用日期:2017年3月14日;发布日期:2017年3月17日
我们给出了样本主成分的性质及证明,分两种情况讨论:从S出发求主成分和从R出发求主成分。在从S出发求主成分中,给出了7个性质(S1)-(S7)及它们的证明,这些性质说明的关系在图1中得到了充分的展现。同样,在从R出发求主成分中,给出了7个性质(R1)-(R7)及它们的证明,这些性质说明的关系在图2中得到了充分的展现。最后我们给出了两个数值模拟的例子来验证性质(S1)-(S7)和(R1)-(R7)的正确性。
关键词 :样本协方差矩阵,样本相关矩阵,样本主成分,性质及证明,R软件
Copyright © 2017 by authors and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
主成分分析(Principal Component Analysis, PCA)或称主分量分析,是一种降维的统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息,转换后的这组综合变量叫主成分。主成分分析首先是由卡尔∙皮尔森(Karl Pearson)对非随机变量引入的,尔后霍特林将此方法推广到随机向量的情形。信息的大小通常用方差来衡量。
为研究总体主成分和样本主成分的性质,需要定义总体或样本的协方差(矩阵)和相关系数(矩阵)。它们的定义及性质请参见 [
本文剩余部分安排如下:第2节给出样本主成分的性质及证明,分两种情况讨论:从
有总体主成分和样本主成分,有协方差矩阵和相关矩阵,把这两个概念结合在一起形成表1。本文讨论样本主成分的性质及证明。分两种情况讨论:从
设
图1.
图2.
协方差矩阵 | 相关矩阵 | |
---|---|---|
总体 |
|
|
样本 |
|
|
表1. 总体和样本的协方差矩阵和相关矩阵
令
上式两边左乘以
则第
下面构造样本主成分,令
因此样本主成分为
其中
类似于数据资料阵
其中
上式中
易知
因为
我们用
(S1).
特别地,
(S2).
特别地,
(S3).
特别地,
(S4).
特别地,
(S5). 若
特别地,
(S6). 若
其中
是
(S7). 样本总方差
此式表明了样本
在以上7个性质中,(S1)显然,(S2)和(S6)的分量形式的结果和(S7)可以在 [
注意,在(S5)和(S6)中我们要求
若
由性质(S1)-(S6)归纳得到样本
性质(S1)-(S7)的证明有些是初等的,有些需要一定的技巧,由于这些证明较占篇幅,所以把它们放到了本文的附录中。
设
令
上式两边左乘以
则第
下面构造样本主成分,令
则
因此样本主成分为
其中
所以
容易验证
由
其中
注意,上式用到了(S4)的结论
易知
类似于矩阵
其中
注意,上式用到了(R2)的结论。从而
易知
因为
值得一提的是,矩阵
我们用
(R1).
特别地,
(R2).
特别地,
(R3).
特别地,
(R4).
特别地,对
(R5). 若
特别地,
(R6). 若
特别地,
(R7). 样本总方差
此式表明了样本
在以上7个性质中,(R1)显然,(R2)和(R6)的分量形式的结果和(R7)可以在 [
注意,在(R5)和(R6)中我们要求
若
由性质(R1)-(R6)归纳得到样本
性质(R1)-(R7)的证明有些是初等的,有些需要一定的技巧,由于这些证明较占篇幅,所以把它们放到了本文的附录中。
此节我们在R软件 [
在R软件中,求矩阵的样本协方差矩阵的函数是cov(),求矩阵的样本相关矩阵的函数是cor() [
(S1).
(S4).
(S6).
(S7).
注意在(S1)中的
性质(R1)-(R7)即是要验证
(R1).
(R4).
(R6).
注意在(S5)和(S6)中要求
下面我们举两个例子来验证(S1)-(S7)和(R1)-(R7)的正确性。
例1.
为重复本文的结果,我们在R软件中使用set.seed(1),此时
容易验证
下面给一个
例2.
为重复本文的结果,我们在R软件中使用set.seed(1),此时
详细的数值模拟结果请见本文的附录。
我们给出了样本主成分的性质及证明,分两种情况讨论:从
本研究受中央高校基本科研业务费项目(CQDXWL-2012-004; CDJRC10100010),中国国家留学基金(201606055028)和教育部人文社会科学研究西部和边疆地区项目(14XJC910001)支持。
张应应,荣腾中. 样本协方差矩阵和样本相关矩阵及其在样本主成分中的应用 The Sample Covariance Matrix and the Sample Correlation Matrix and Their Applications in the Sample Principal Component[J]. 统计学与应用, 2017, 06(01): 34-62. http://dx.doi.org/10.12677/SA.2017.61005