Statistical and Application
统计学与应用
, 2012, 1, 31-36
http://dx.doi.org/10.12677/sa.2012.12007
Published Online December 2012 (http://www.abtbus.com/journal/sa.html)
M Estimators and Influence Diagnostics in Linear
Models
Rong Jiang, Weimin Qian
Department of Mathematics, Tongji University, Shanghai
Email: jrtrying@126.com, wmqian2003@yahoo.com.cn
Received: Nov. 12
th
, 2012; revised: Nov. 17th, 2012; accepted: Nov. 29th, 2012
Abstract:
In order to overcome the large deviation between the actual observed data and established models.
There are two common methods: the robust estimation and st
atistical diagnostics. M estimator is a robust es-
timation, it is the method which got the most attention and research results in linear regression. Therefore, in-
fluence diagnostics and M esti mator are used to judge the impact of outliers or strong influen ce points in this
paper. Moreover, the expression of parameter estimation deviate and diagnostic statistics are given. Finally,
the proposed methods are applied to two data sets.
Keywords:
Case-Deletion Model; Mean-Shift Outlier Model; Local Influence; M Estimate; Cook Distance
线性模型基于
M
估计的统计诊断与影响分析
姜
荣,钱伟民
同济大学应用数学系,上海
Email: jrtrying@126.com, wmqian2003@yahoo.com.cn
收稿日期:
2012
年11月12日;修回日期:
2012
年11月17日;录用日期:
2012
年11月29日
摘
要:为了克服实际观测数据与既定模型之间可能存在的较大偏离,目前有两种常用的处理方法:
稳健统计与统计诊断。
M方法是最重要的稳健统计之一,也是线性回归分析中是最受重视和研究成果
最多的方法之一。所以本文结合
M
估计方法分析数据的统计诊断,从而得到异常点或强影响点。本文
给出了参数估计偏离的表达式及几个诊断统计量,最后通过两个实例验证了本文所提方法的可行性。
关键词:
数据删除模型;均值漂移模型;局部影响;M估计;Cook距离
1.
引言
统计诊断从
20世纪
70
年代中期受到统计学家的
广泛关注,经过近
40
年的发展,异常点识别、残差
分析、影响分析和数据变换等内容现已成为统计诊断
的主要课题。特别地,基于数据删除模型和局部影响
的诊断分析方法现已成为统计诊断的通用方法,它们
可广泛地应用于各种统计模型的影响分析。例如,线
性模型
(Cook and Weisberg[1]),非线性回归模型(Seber
and W ild
[2]
),半参数非线性模型(姜荣,邵明江,钱伟
民
[3]
),指数族非线性模型(Wei[4]),线性混合效应
模型
(Beckman et al.[5])。M估计是目前应用最广泛的
稳健估计方法。吴小燕,赵林城,杨亚宁
[6]
研究了线
性模型的随机加权
M
估计。Jiang et al.[7]对测量误差
模型提出了随机加权
M
估计。最近,孙慧慧,林金官
[8]
利用M方法提出了稳健极大似然估计,并基于此估
计方法研究了线性混合模型的随机误差的方差加权
扰动模型的影响分析。
本文基于
M
估计,考虑删除模型、均值漂移模型、
因变量扰动模型以及自变量扰动模型的影响分析。
考虑如下线性回归模型:
Copyright © 2012 Hanspub
31
线性模型基于
M
估计的统计诊断与影响分析
,1,
T
ii i
,
y
xi
n(1)
其中
1,,
p
x
x
为已知的p维向量,1,,
p
为独立同
分布随机误差,
为未知的
p
维回归参数向量。设
的
M
估计ˆ
是求下述极小问题的解:
1
n
T
ii
i
Sy
x
(2)
其中
为 上的非单调凸函数,且以
1
R
和
分别记
的左右导数,
是介于
和
之间的一个函数。
本文结合统计诊断与
M
方法来诊断实际观测数
据与既定模型之间的偏离。这样检测出来的点相比最
小二乘方法更有理由相信它是异常点或强影响点。本
文给出了参数偏离的表达式及几个诊断统计量,并通
过实例验证本文所提出的方法是可行的。
本文的安排如下:第二节介绍基于删除模型的影
响分析,给出了参数估计偏离的表达式及诊断统计
量;第三节介绍了均值漂移模型,并证明了数据删除
模型与均值漂移模型基于
M估计的等价性;第四节介
绍了局部影响分析,给出了两个不同的扰动下的诊断
统计量;第五节通过实例验证了本文所提出的诊断方
法的有效性。附件中是定理的证明。
2.
基于删除模型的影响分析
2.1.
数据删除模型
考虑模型
(1)
式中删除第i个数据点
以后
的模型及参数估计。这个模型可表示为
,
T
T
ii
yx
,
T
jj j
yx ji
(3)
模型
(3)称为数据删除模型,或简称删除模型
(CDM)
,记删除第i个数据点的数据删除模型
(3)式中
的
M
估计记为
ˆ
i
。为研究数据点
对估计
,
T
T
ii
yx
ˆ
的影响,最简单直接的方法就是比较两组估计
ˆ
和
ˆ
i
的差异。为此有以下重要定理。
首先给出定理所需要的条件
A1
:当u充分小时,
1
Gu Eu
0
存在,
在有正的导数,且当
u
时,0uG
12
Gu Ou
。
A2
:,且
22
1
0
E
3
1
E
。
A3
:对充分小的 ,有0t
sup
u
ut u
注:
条件A1~A3是M估计线性表示和参数相合
性最基本的条件。
定理
1
:若模型
(1)
满足条件
A1~A3
,则模型(3)
中
的
M
估计
ˆ
i
的一阶近似可表示为:
1
1
ˆ
ˆˆ
11
T
iii iip
i
XX xPho
其中:
1
0hE
ˆ
i
, ,
1
TT
ii ii
PxXXx
ˆ
ii
y
x
。
考虑去掉第
i个点
的删除模型,即模型
(3)
式。差值
,
T
ii
yx
T
ˆ
ˆ
i
就是数据点 的影响大小的一
种度量,差值越大,影响越大。但是由于
,
ˆ
T
T
ii
yx
ˆ
i
是一
个向量,不便于比较,必须选择一个适合的数量或距
离,以便于定量地比较影响的大小。为了解决以上问
题,我们研究在影响诊断中最重要的距离之一:
Cook
距离。
2.2.
广义
Cook距离
Cook and Weisberg
[1]基于参数置信域的观点提出
了
Cook距离。取以下非负定矩阵M,及实数C作为
尺度因子。定义
ˆ
ˆ
i
的距离为
ˆˆ
ˆˆ
T
i
ii
DM
C
i
D
称为广义Cook距离,它是度量
ˆ
ˆ
i
大小的
有效度量。根据陈希孺和赵林城
[2]的定理4.1和定理
5.2
,我们有:
22 2
00
ˆ
ˆˆ
ˆ
T
TL
X
Xp
其中:
22
1
1
ˆ
ˆ
nT
ii
i
yx
n
,
1
1
ˆˆ
2
n
TT
ii ii
i
yx hyx h
nh
ˆ
.
对模型
(1)
的M估计问题,我们选取
22
ˆ
ˆ
;
T
MXX C
所以广义
Cook
距离的公式:
22
ˆ
ˆ
ˆˆˆ
ˆ
T
T
i
ii
DXX
3.
均值漂移模型与异常点检验
数据删除模型,由于它非常直观和容易计算,所
以它是构造有效诊断统计量的基础,且在实践中也是
Cop
yright © 2012 Hanspub
32
线性模型基于
M
估计的统计诊断与影响分析
一种最重要的诊断模型。另一种经常使用的诊断模型
是均值漂移模型
(MSOM)。均值漂移模型可表示为
,
T
jj j
T
ii i
yx j
yx
i
(4)
其中
为扰动值,是一个新参数。该模型表明对第
i
个数据点增加一个扰动值。记该模型相应参数的
M估
计为
ˆ
mi
ˆ
,
。
对于最小二乘估计,韦博成,林金官,解锋昌
[9]
证明了数据删除模型和均值漂移模型的等价性,即这
两个模型的估计量相等。但对于
M估计,类似的结论
文献中还未见到。因此我们将这一结果推广到
M
估
计。有以下定理。
定理
2
:
若模型(4)满足条件
A1~A3
,则有
ˆˆ
mi
i
定理
2
说明,虽然数据删除模型(3)和均值漂移模型(4)
表面形式不一样,但有关估计量的统计性质完全相
同。因而用它们研究第
i
个数据点
对估计量
的影响,其效果一样。比较模型
(3)
与模型(1),若
,
T
T
ii
yx
ˆ
与
ˆ
i
有显著差异,则说明
可能是异常点;比较
模型
(4)
与模型(1),若
,
T
T
ii
yx
显著不为零,则说明
可能是异常点。而定理
2
说明两者是一致的。在实践
中,往往根据需要选择其中之一加以研究。通常,数
据删除模型更为直观,均值漂移模型更便于分析。
,
T
ii
yx
T
4.
局部影响分析
Cook
[10]
从微分几何观点出发提出了局部影响分
析方法,随后,经过许多作者
(
例如,Escobar and Mecker
[11]
和
Wei
[12])的研究,这一方法得到了充分发展,本节
研究线性模型基于
M
估计的局部影响分析。
首先介绍一般的局部影响分析方法。令
是未知
的
k
维参数,其定义域为 中的某一开集。
k
R
l
是
为估计
设计的某一目标函数
(例如似然函数,又如
(2)
式的
S
函数
)。
是定义在
上的n维向量,
表示对模型的扰动因素,记受扰动的模型为
n
R
M
,
其相应的目标函数为
l
ˆ
,
T
T
l
(5)
这个图称为影响图。影响图随
变化的情况更全
面地反映了扰动的影响。由于
0
对应于无扰动模型,
因此影响图在
0
处的变化率反映了原模型对于扰动
的敏感程度,现称为局部影响。
Cook
[11]提出利用影响
曲率度量影响图在
0
附近的变化情况。
根据
Cook[10]
可知,由
(5)
式定义的影响图的影响
曲率可表示为
1
TT
d
ldld
(6)
其中
l
为l关于
的二阶导数,在
ˆ
处的值;
2
ˆ
,
0
T
l
,0
d
。
所以下面我们应用
(6)
式,研究线性模型基于M估
计的局部影响分析。
4.1.
因变量扰动模型
对因变量加权扰动,即在
YY
0
下找强影响
点。假定 为扰动向量,
对应无扰动模型,则扰动模型可表示为:
1
,,
T
n
0,,0
T
1
n
T
iii
i
Syx
经简单的计算可得:
0
ˆ
ˆ
T
i
S
XX
(7)
1
ˆ
,,,
ii
in
x
(8)
把
(7)式和
(8)代入
(6)式由此可得相应的影响曲
率。
4.2.
自变量扰动模型
设第
k
个自变量有扰动,这时
kkk
XXX
。假定
为加权扰动向量,
对应无扰动模型,则扰动模型可表示
为:
0
0,,0
T
,由
M
得到的相应估
计记为
ˆ
。假定存在一个
0
使
0
ll
且
0
ˆˆ
,
l
1
n
T
iiik
i
Syxh
关于
和
存在二阶以上连续导数。
ˆ
l
是
的函数。从几何上看函数
ˆ
l
表示
n+ 1
维空间中的一个
n维曲面
其中为第
k
个分量为1其他为0的p维向量,再经
简单的计算可得:
k
h
Cop
yright © 2012 Hanspub
33
线性模型基于
M
估计的统计诊断与影响分析
Copyright © 2012 Hanspub
34
ˆ
ˆ
ˆ
TT
ik iika
i
hx hd
估计,
是相应删除数据下的残差,
ri,ti分别是M估
计得学生化残差和学生化外残差,
Di为广义Cook距
离的值。因为第
7
号点的广义Cook距离Di的值非常
的大,所以第
7
号点为异常点或强影响点。分析原因
是在原始数据中第
7号点远离其它的点,还可以从参
数
的估计里看出,
7号点与其他点的差异非常明显,
而其他点之间的差异很小。
1
,,
n
(9)
其中:当时;当
k
,
。
ka
1,
a
1
T
ka
hd
,
p
a
0,
T
ka
hd
把
(7)式和
(9)代入
(6)式由此可得相应的影响曲
率。
图
1
和图2分别是因变量扰动模型和自变量扰动
模型下影响曲率的散点图,从图
1和图2可看出,第7
号点是强影响点与前面分析的一致。所以,本文的方
法是有效的。
5.
实际例子分析
5.1.
镀锌数据(Cook
[13]
)
在钢铁上镀锌的传统工艺代价较高且污染严重,
今考虑一种比较节约且无害的新工艺。为比较新旧工
艺的性能,以镀层厚度
(
单位为英寸)来度量,y表
示按新工艺操作的镀层厚度,
x表示按旧工艺操作的
镀层厚度,共有
11
块测试样品。考虑y关于x的线性
回归
5
10
5.2.
雪雁数据
(Weisberg[14])
为调查加拿大某地雪雁的数据,可由有经验的人
在小飞机上通过目测估计出每群雪雁的数目。为研究
目测方法的可靠性,进行了一项实验:在目测每群雪
雁数目
(
记为x)的同时,也用通过拍照测出每群雪雁的
准确数目
(
记为y);共测量了45群。
01
,1,,11
T
iii
yxi
(10)
本例考虑的模型和惩罚函数与例
5.1
中的一样。
(
即模型为
(10)式,惩罚函数为(11)式)。
这里我们取惩罚函数为:
2
,1
21, 1
21,
uu
uu u
uu
运用本文的方法得到参数
的
M
估计
1
(11)
01
ˆ
ˆ
5.1785, 0.6004
。图3是雪雁数据广义Cook
距离的散点图,从图中可以发现第
28
号点为异常点
或强影响点。图
4
和图5分别是因变量扰动模型和自变
量扰动模型下影响曲率的散点图,从图
4
和图5可看
,
第28号点是强影响点并且第41号点的影响也较大。
运用本文的方法得到参数
的
M
估计
。
01
ˆˆ
4.4974, 0.8695
表
1
给出了有关的统计量,其中01
,
是参数的
出
Table 1. Statistics for galvanized data
表
1.镀锌数据的相关统计量
NO
0
1
ri ti Di
1 4.7491 0.8692 –0.3636 –0.2468 –0.1828 0.1294
2 4.0316 0.8702 0.7238 0.4883 0.4766 0.4598
3 5.0195 0.8687 –9.9292 –6.7737 –6.8032 0.5549
4 4.972 0.8689 –4.3629 –2.9365 –2.9184 0.4925
5 4.1500 0.8701 11.3755 7.7274 8.6404 0.2424
6 4.1557 0.8700 10.3324 6.9784 7.8663 0.2451
7 –3.3953 0.9286 –0.5635 –0.6174 –0.4728 736.9482
8 4.9243 0.8690 –0.7967 –0.5311 –0.4458 0.4374
9 4.7363 0.8696 –27.3927 –18.2146 –17.0120 0.2955
10 4.3065 0.8693 11.5994 7.7574 9.6184 0.2636
11 4.4495 0.8688 34.1683 24.2697 30.4102 0.2965
线性模型基于
M
估计的统计诊断与影响分析
Figure 1. The scatter diagram of the variable perturbation influ-
ence for galvanized data
图
1.镀锌数据在因变量扰动下影响曲率的散点图
Figure 2. The scatter diagram of the independent variable pertur-
bation influence for galvanized data
图
2.镀锌数据在自变量扰动下影响曲率的散点图
Figure 3. The scatter diagram of generalized cook distance for
snow geese data
图
3.雪雁数据广义Cook距离的散点图
Figure 4. The scatter diagram of the variable perturbation influ-
ence for snow geese data
图
4.雪雁数据在因变量扰动下影响曲率的散点图
Figure 5. The scatter diagram of the independent variable pertur-
bation influence for snow geese data
图
5.雪雁数据在自变量扰动下影响曲率的散点图
6.
致谢
感谢编辑及审稿人的宝贵意见。
参考文献
(References)
[1]
R. D. Cook, S. Weisberg. Residual and influence in regression.
New York: Chapman and Hall, 1982.
[2]
G. Seber, C. J. Wild. Nonlinear Regression. New York: Wiley,
1989.
[3]
姜荣,
邵明江,
钱伟民.
半参数非线性模型中的t-型估计和影
响分析
[J].
华东师范大学学报
(
自然科学版
), 2011, 3: 1-11.
[4]
B. C. Wei. Exponential family nonlinear models. Singapore:
Springer-Verlag, 1994.
[5]
R. J. Beckman, C. J. Nachtsheim and R. D. Cook. Diagnostics
for mixed-model analysis of variance. Technometrics, 1987, 29(4):
413-426.
[6]
吴小燕,赵林城,杨亚宁.线性模型中
M估计分布的随机加权
Cop
yright © 2012 Hanspub
35
线性模型基于
M
估计的统计诊断与影响分析
方法逼近
[J].
系统科学与数学
, 2008, 28(9): 1092-1100.
[7]
R. Jiang, X. Yang and W. Qian. Random weighting M-estimation
for linear errors-in-variables models. Journal of the Korean Sta-
tistical Society, 2012, 41(4): 505-514.
[8]
孙慧慧,
林金官.
基于
M估计的线性混合模型的局部影响分
析
[J].
应用概率统计
, 2012, 28(2): 217-223.
[9]
韦博成,
林金官,
解锋昌.
统计诊断[M].北京:高等教育出
版社
, 2009.
[10]
R. D. Cook. Assessment of local influence (with discussion). Jour-
nal of the Royal Statistical Society Series B, 1986, 48(2): 133-
169.
[11]
L. A. Escobar, W. Q. Meeker. Assessing influence in regression
analysis with censored data. Biometrics, 1992, 48(2): 507-508.
[12]
B. C. We. Exponential family nonlinear models. Singapore:
Sp ring er-Verlag, 1994.
[13]
R. D. Cook, N. Holschuh, and S. Weisberg. A notes on alterna-
tive outlier model. Journal of the Royal Statistical Society Series
B, 1982, 44(3): 370-376.
[14]
S. Weisberg, Applied linear regression. New York: Wiley, 1985.
[15]
陈希孺,赵林城.线性模型中的M方法[M].上海:上海科学技
术出版社
, 1996.
附录
定理
1
的证明:根据陈希孺和赵林城[15]中的(6.2)
式,设
0
为真值,则我们有:
11
0
1
ˆ
(1)
n
ii p
i
hSx o
(12)
其中: 。记
T
SXX
TT
jj
ii
ji
SxxXX
i
则类似
(12),我们有
11
0
1
1
1
11
1
1
1
11
11
1
11
1
1
ˆ
1
1
1
1
1
jj p
ii
ji
n
TT
iii iiip
i
TTT
n
ii
T
iiii p
i
ii
n
TT
ii ii
i
TTT
n
ii
i
i
ii
hSx o
hXXxxxx o
XXxx XX
hXXx xo
P
hXXxhXX x
XXxx XX
hx
P
11
1
1
1
0
1
1
ˆ
ˆ
() 1
1
TTT
ii
ii
ii
T
i
ii p
ii
XXxx XX
ho
P
XX x
ho
P
p
所以,定理
1
得证。
定理
2
的证明:由
ˆ
i
的定义,
ˆ
i
是以下最小问
题的解
T
jj
i
ji
Syx
对模型
(4)
式,ˆmi
和
ˆ
是以下最小问题的解
,
TT
mijji i
ji
Syxyx
因此
ˆ
满足以下方程
0
T
mi
ii
S
yx
而
ˆmi
满足以下方程
0
i
T
mi
iii
S
S
xyx
(14)
由
(13)和
(14),我们有
0
i
mi
S
S
因此
ˆˆ
mi
i
,定理得证。
(13)
Cop
yright © 2012 Hanspub
36
|