为探究非参数回归模型中非参数函数估计量的分布,本文在标准正态误差情形下首先得到了均值函数样条估计量的正态分布,然后得到了方差函数基于残差的样条估计量的渐近分布,并采用单个卡方变量线性函数来近似方差函数估计量的渐近分布。通过数值模拟验证了均值函数估计量的分布和方差函数估计量的渐近分布。 To explore the distribution of nonparametric function estimator in the nonparametric regression model, we first obtain the normal distribution of the spline estimator of the mean function in the standard normal error casein this paper. Then the asymptotic distribution of the spline estimator of the variance function based on the residuals is obtained. And the linear function of individual chi-square variable is used to approximate the asymptotic distribution of the variance function es-timator. The distribution of the mean function estimator and the asymptotic distribution of the variance function estimator are illustrated by numerical simulations.
为探究非参数回归模型中非参数函数估计量的分布,本文在标准正态误差情形下首先得到了均值函数样条估计量的正态分布,然后得到了方差函数基于残差的样条估计量的渐近分布,并采用单个卡方变量线性函数来近似方差函数估计量的渐近分布。通过数值模拟验证了均值函数估计量的分布和方差函数估计量的渐近分布。
非参数回归模型,样条估计,渐近分布,卡方分布线性组合
Luli Zhan*, Xinqian Wu
School of Mathematics and Statistics, Henan University of Science and Technology, Luoyang Henan
Received: Sep. 24th, 2022; accepted: Oct. 17th, 2022; published: Oct. 26th, 2022
To explore the distribution of nonparametric function estimator in the nonparametric regression model, we first obtain the normal distribution of the spline estimator of the mean function in the standard normal error casein this paper. Then the asymptotic distribution of the spline estimator of the variance function based on the residuals is obtained. And the linear function of individual chi-square variable is used to approximate the asymptotic distribution of the variance function estimator. The distribution of the mean function estimator and the asymptotic distribution of the variance function estimator are illustrated by numerical simulations.
Keywords:Nonparametric Regression Model, Spline Estimation, Asymptotic Distribution, Linear Combination of Chi-Square Distribution
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
考虑如下非参数回归模型
y t = m ( x t ) + σ ( x t ) ε t , t = 1 , 2 , ⋯ , n , (1)
其中 x t = t / n 为固定设计点, y t 为被解释变量或响应变量, m ( ⋅ ) 与 σ ( ⋅ ) 分别为未知的均值函数和标准差函数, { ε t } 为独立同分布的随机误差序列,且 E ε t = 0 , E ε t 2 = 1 , t = 1 , 2 , ⋯ , n 。
近些年来,国内外学者对非参数回归模型做了大量的研究 [
本文对非参数回归模型中基于样条方法的均值函数估计量和方差函数估计量的分布问题进行研究,并通过数值模拟验证效果。
根据文献 [
0 = t 0 < t 1 < ⋯ < t k + 1 = 1 ,
构造相应的v次样条空间 S k , v ,其基函数记作 B s ( x ) ( s = 1 , 2 , ⋯ , k + v ) 。设 K = k + v ,又令
B s ( x ) = ( B 1 ( x ) , B 2 ( x ) , ⋯ , B K ( x ) ) T ,
则均值函数 m ( x ) 的样条估计为
m ^ ( x ) = B T ( x ) φ ^ = ∑ s = 1 K φ ^ s B s ( x ) , (2)
这里 φ ^ = ( φ ^ 1 , ⋯ , φ ^ K ) T 为能使
l m ( φ ) = ∑ t = 1 n { y t − ∑ s = 1 K φ s B s ( x t ) } 2
最小化的参数向量, φ = ( φ 1 , ⋯ , φ K ) T ,它的最小二乘估计为 φ ^ = ( W T W ) − 1 W T y ,其中
y = ( y 1 , y 2 , ⋯ , y n ) T ,
W = ( B k 1 ( x 1 ) B k 2 ( x 1 ) ⋯ B k K ( x 1 ) B k 1 ( x 2 ) B k 2 ( x 2 ) ⋯ B k K ( x 2 ) ⋮ ⋮ ⋱ ⋮ B k 1 ( x n ) B k 2 ( x n ) ⋯ B k K ( x n ) ) 。
记残差 ς ^ t = y t − m ^ ( x t ) , t = 1 , ⋯ , n ,令 z t = ς ^ t 2 , z = ( z 1 , ⋯ , z n ) T ,则方差函数 σ 2 ( x ) 的基于残差的样条估计为
σ ^ 2 ( x ) = B T ( x ) θ ^ = ∑ s = 1 K θ ^ s B s ( x ) , (3)
其中 θ ^ = ( θ ^ 1 , ⋯ , θ ^ K ) T 为使得
l σ 2 ( θ ) = ∑ t = 1 n { z t − ∑ s = 1 K θ s B s ( x t ) } 2
最小化的参数向量, θ = ( θ 1 , ⋯ , θ K ) T ,它的最小二乘估计为 θ ^ = ( W T W ) − 1 W T z 。
本文假定误差序列 { ε t } 来自标准正态总体,即 ε t ∼ N ( 0 , 1 ) , t = 1 , 2 , ⋯ , n 。不妨记
M = ( m ( x 1 ) , m ( x 2 ) , ⋯ , m ( x n ) ) T ,
∑ = ( σ ( x 1 ) 0 ⋯ 0 0 σ ( x 2 ) ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ σ ( x n ) ) ,
ε = ( ε 1 , ε 2 , ⋯ , ε n ) T ,
则模型(1)可简记为
y = M + ∑ ε , (4)
其中
ε ~ N ( ( 0 0 ⋮ 0 ) , ( 1 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 ) ) 。
因为 M 与 ∑ 分别为常数向量和常数矩阵,又根据期望与方差的性质可知, y ~ N ( M , ∑ 2 ) 。
定理1均值函数 m ( x ) 的样条估计量 m ^ ( x ) 服从均值为 B T ( x ) A M ,方差为 B T ( x ) A ∑ 2 A T B ( x ) 的正态分布,即
m ^ ( x ) ~ N ( B T ( x ) A M , B T ( x ) A ∑ 2 A T B ( x ) ) ,
其中 A = ( W T W ) − 1 W T 。
证明:根据(2)式知,要证 m ^ ( x ) 的分布,只需证 φ ^ 的分布,又因为 φ ^ = ( W T W ) − 1 W T y ,那么有
φ ^ ~ N ( ( W T W ) − 1 W T M , ( W T W ) − 1 W T ∑ 2 W ( W T W ) − 1 ) ,
故有
m ^ ( x ) = B T ( x ) φ ^ ~ N ( B T ( x ) A M , B T ( x ) A ∑ 2 A T B ( x ) ) 。
本文记 X ↔ Y 表示随机变量序列X与Y渐近同分布。接下来讨论方差函数估计量 σ ^ 2 ( x ) 的渐近分布。
定理2方差函数 σ 2 ( x ) 基于残差的样条估计量 σ ^ 2 ( x ) 与 ∑ t = 1 n c t ε t 2 渐近同分布,即
σ ^ 2 ( x ) ↔ ∑ t = 1 n c t ε t 2 ,
这里 c = ( c 1 , c 2 , ⋯ , c n ) = B T ( x ) A ∑ 2 。
证明:根据(3)式,要证方差函数估计量 σ ^ 2 ( x ) 的分布,只需证 z = ( z 1 , z 2 , ⋯ , z n ) T 的分布。
因为
ς ^ t = y t − m ^ ( x t ) = y t − m ( x t ) + m ( x t ) − m ^ ( x t ) = σ ( x t ) ε t − [ m ^ ( x t ) − m ( x t ) ] ,
则有
z t = ς ^ t 2 = { σ ( x t ) ε t − [ m ^ ( x t ) − m ( x t ) ] } 2 ,
即
z t = [ σ ( x t ) ε t ] 2 − 2 σ ( x t ) ε t [ m ^ ( x t ) − m ( x t ) ] + [ m ^ ( x t ) − m ( x t ) ] 2 。
由 m ^ ( x ) 一致收敛到 m ( x ) (见文献 [
σ ^ 2 ( x ) ↔ B T ( x ) ⋅ ( W T W ) − 1 W T ⋅ ( σ 2 ( x 1 ) ε 1 2 σ 2 ( x 2 ) ε 2 2 ⋮ σ 2 ( x n ) ε n 2 ) = B T ( x ) A ∑ 2 ( ε 1 2 ε 2 2 ⋮ ε n 2 ) ,
即
σ ^ 2 ( x ) ↔ ∑ t = 1 n c t ε t 2 。
因为 { ε t } 为相互独立且服从标准正态分布的随机误差序列,故有
ε t 2 ~ χ 2 ( 1 ) , ∀ t = 1 , 2 , ⋯ , n ,
因此,要求方差函数估计量 σ ^ 2 ( x ) 的渐近分布就是求服从卡方分布的独立随机变量的线性组合的分布。根据文献 [
首先,考虑用 Y ˜ = a χ 2 ( d ) 作为 ∑ t = 1 n c t ε t 2 的近似分布。采用一、二阶矩拟合的原则选取 a , d ,即由方程
{ E ( Y ˜ ) = E ( ∑ t = 1 n c t ε t 2 ) D ( Y ˜ ) = D ( ∑ t = 1 n c t ε t 2 )
确定。从而 a , d 应满足方程
{ a d = ∑ t = 1 n c t ≜ P a 2 d = ∑ t = 1 n c t 2 ≜ Q
解得
a = Q / P , d = P 2 / Q 。
考虑到 χ 2 变量的自由度为正整数,故将d修正为
d * = [ P 2 / Q + 0.5 ] ,
这里 [ x ] 表示不超过x的最大整数,若 P 2 / Q < 0.5 ,则取 d * = 1 。
再用 Y ~ a χ 2 ( d * ) + e 1 来近似 ∑ t = 1 n c t ε t 2 的分布,采用上述方法得到
e 1 = P − Q d * , a = ( P − e 1 ) / d * ,
于是,可用 a χ 2 ( d * ) + e 1 作为 ∑ t = 1 n c t ε t 2 的近似。
考虑模型(1),其中
{ m ( x ) = 50 x 3 ( 1 − x ) 3 σ ( x ) = 0.2 + 0.4 sin ( π x ) , ε t ~ N ( 0 , 1 ) , t = 1 , 2 , ⋯ , n (5)
这里 x ∈ [ 0 , 1 ] 。
对模型(5)进行蒙特卡罗模拟,利用三次B-样条基函数估计未知均值函数 m ( x ) ,基于残差估计方差函数 σ 2 ( x ) ,并在AIC准则下自动选取等距结点数。
为验证理论分布效果,使用MATLAB软件进行模拟运算,选取显著性水平为 α = 0.05 ,具体步骤如下:
第一步,根据模型(5),计算出 B T ( x ) A M 与 B T ( x ) A ∑ 2 A T B ( x ) ;
第二步,生成N个服从 N ( B T ( x ) A M , B T ( x ) A ∑ 2 A T B ( x ) ) 的随机数;
第三步,基于样条方法,通过蒙特卡罗模拟产生N个均值函数的估计值 m ^ ( x ) ;
第四步,在给定置信水平下,检验第二步与第三步产生的随机数与均值函数估计值是否来自于同一分布;
第五步,对上述四步进行多次重复模拟,分析所得结果。
图1绘制了 x = 0.02 , 0.2 , 0.4 , 0.6 , 0.8 , 1.0 处在 N = 1000 时的直方图和概率密度函数曲线图。
由图1可见,各点处拟合的均值函数的直方图与概率密度函数曲线呈倒U型,直观地可以认为各点处拟合的均值函数估计值来自于正态分布。进一步地,对各点处的均值函数估计量的分布与正态分布进行Two-sample t-test检验,并分别循环模拟 N = 10 , 50 , 100 , 500 , 1000 次,检验的P值如表1所示。
图1. 均值函数各点处估计值的直方图及其概率密度函数曲线
x/N | 10 | 50 | 100 | 500 | 1000 |
---|---|---|---|---|---|
0.02 | 0.0007 | 0.4628 | 0.4062 | 0.9438 | 0.7338 |
0.20 | 0.0586 | 0.4463 | 0.5546 | 0.8140 | 0.7879 |
0.40 | 0.0472 | 0.7216 | 0.5068 | 0.6059 | 0.9070 |
0.60 | 0.1672 | 0.0525 | 0.3608 | 0.5405 | 0.6887 |
0.80 | 0.3916 | 0.7595 | 0.9055 | 0.6088 | 0.4992 |
1.00 | 0.0060 | 0.8371 | 0.7298 | 0.2669 | 0.9159 |
表1. 均值函数Two-sample t-test检验的P值
由表1可知,当 x = 0.2 , 0 .4, 0.8 时,P值均大于0.05;当N较大时,各点处的P值均大于0.05,说明在给定的显著性水平0.05下,应该接受原假设,即认为检验数据服从正态分布。
检验步骤如下:
第一步:依据模型(5)给定x值,计算a, d * 与 e 1 ;
第二步:随机生成N个服从 a χ 2 ( d * ) + e 1 的随机数;
第三步:基于残差样条方法,通过蒙特卡罗模拟生成N个方差函数 σ ^ 2 ( x ) 的估计值;
第四步,在给定置信水平下,检验第二步与第三步产生的随机数与方差函数估计值是否来自于同一分布;
第五步,对上述四步进行多次重复模拟,分析所得结果。
图2绘制了 x = 0.02 , 0.2 , 0.4 , 0.6 , 0.8 , 1.0 处在 N = 1000 时的直方图和概率密度函数曲线图。
图2. 方差函数各点处估计值的直方图及其概率密度函数曲线
由图2可见,各点处拟合的方差函数估计量的直方图与概率密度函数曲线呈不对称的倒U型,且整体上右偏,直观地可以认为各点处拟合的方差函数估计量近似服从卡方分布。进一步地,对各点处的方差函数估计量的渐近分布与 a χ 2 ( d * ) + e 1 进行Two-sample t-test检验,并分别循环模拟 N = 10 , 50 , 100 , 500 , 1000 次,结果如表2所示。
由表2可知,各点处的P值均大于给定的显著性水平0.05,说明可以接受原假设,即认为检验数据近似服从 a χ 2 ( d * ) + e 1 。
x/N | 10 | 50 | 100 | 500 | 1000 |
---|---|---|---|---|---|
0.02 | 0.3875 | 0.2297 | 0.0620 | 0.1405 | 0.0955 |
0.20 | 0.3715 | 0.0989 | 0.9234 | 0.9621 | 0.6536 |
0.40 | 0.8930 | 0.3863 | 0.9431 | 0.3844 | 0.9430 |
0.60 | 0.2782 | 0.6464 | 0.7323 | 0.1275 | 0.7215 |
0.80 | 0.3610 | 0.9049 | 0.9524 | 0.7373 | 0.9535 |
1.00 | 0.2025 | 0.4128 | 0.8573 | 0.9954 | 0.9361 |
表2. 方差函数Two-sample t-test检验的P值
本文基于样条方法研究了固定设计下异方差非参数回归模型的均值函数与方差函数估计量的分布,均值函数的估计量服从正态分布,方差函数估计量的渐近分布可由单个 χ 2 变量的线性函数来近似。模拟结果显示:在给定显著性水平0.05下,分布拟合效果较优。
本文所研究的固定设计下异方差非参数回归模型的均值函数与方差函数估计量的近似分布为生物、医学、地质、经济等领域的研究带来了便利。
国家自然科学基金项目(11601126);河南省重点攻关项目(182102210286)。
詹陆丽,武新乾. 非参数回归模型样条估计量的分布Distribution of Spline Estimators for Nonparametric Regression Models[J]. 应用数学进展, 2022, 11(10): 7422-7429. https://doi.org/10.12677/AAM.2022.1110788
https://doi.org/10.1016/j.spl.2016.04.009
https://doi.org/10.1016/0047-259X(91)90061-6
https://doi.org/10.1080/10485250902811151
https://doi.org/10.1016/j.jmva.2004.06.004
https://doi.org/10.1017/S0266466614000450
https://doi.org/10.1080/03610918.2017.1315774
https://doi.org/10.1111/anzs.12311
https://doi.org/10.1198/016214504000000575