aam Advances in Applied Mathematics 2324-7991 2324-8009 beplay体育官网网页版等您来挑战! 10.12677/aam.2024.137303 aam-91614 Articles 数学与物理 含高相关协变量的纵向广义线性模型变量选择研究
Variable Selection in Longitudinal Generalized Linear Models with Highly Correlated Covariates
1 赵培信 1 2 重庆工商大学数学与统计学院,重庆 统计智能计算与检测重庆市重点实验室,重庆 04 07 2024 13 07 3175 3181 15 6 :2024 9 6 :2024 9 7 :2024 Copyright © 2024 beplay安卓登录 All rights reserved. 2024 This work is licensed under the Creative Commons Attribution International License (CC BY). http://creativecommons.org/licenses/by/4.0/ 结合半标准偏协方差函数(SPAC)和Lasso惩罚估计方法,对一类纵向数据下的广义线性模型的变量选择问题提出一种基于SPAC-Lasso惩罚的变量选择方法。在一些正则性条件下证明了所提出的变量选择方法的相合性,并给出了所得正则估计的收敛速度。所提出的变量选择方法允许协变量之间存在高相关性,改进并推广了已有变量选择方法的应用领域。
Combining the semi-parametric approximate covariance function (SPAC) and Lasso penalized estimation method, we propose a variable selection approach based on SPAC-Lasso penalty for a class of longitudinal generalized linear models. Under some regularity conditions, we demonstrate the consistency of the proposed variable selection method and provide the convergence rate of the resulting regularized estimates. The proposed variable selection method allows for high correlations among covariates, improving and extending the applicability of existing variable selection methods.
广义线性模型,高相关协变量,纵向数据,变量选择
Generalized Linear Models
Highly Correlated Covariates Longitudinal Data Variable Selection
1. 引言

纵向数据常常出现在生物医学、社会经济以及金融工程等领域的跟踪调查研究中。纵向数据下的广义线性模型可以对跟踪调查中的连续性协变量与离散响应变量之间有效地建立一种量化关系,因此具有较好的适应性和广泛的应用领域。具体地,纵向数据下的广义线性模型具有如下结构:

Ε ( Y i j | X i j ) = g ( X i j Τ β ) , i = 1 , , n ; j = 1 , , m (1.1)

其中 Y i j 是响应变量, X i j = ( X i j 1 , , X i j p ) T 是一个p维协变量, β = ( β 1 , , β p ) T 为未知回归系数向量, g ( ) 为一个已知的连接函数的逆。不失一般性,本文考虑正则链接函数,即假定 g ( ) = b ( ) ,其中 b ( ) 是连接函数 b ( ) 的一阶导数。

对于纵向数据下的广义线性模型,Avella-Medina和Ronchetti [1] 给出了一个稳健的惩罚拟似然估计,并证明了所提出的方法的oracle性质。WANG和TIAN [2] 提出了一种自适应分组Lasso变量选择过程,并证明了相应的选择一致性。但是在这些变量选择方法中,均假定模型中的重要变量与不重要变量之间是相互独立的,当重要协变量与不重要协变量之间存在高度相关性时,上述给出的Lasso惩罚方法则不能有效地识别出重要协变量以及不重要协变量。

为此,Bühlmann [3] 等人引入了部分信赖度的概念,并提出了基于部分相关性的PC-SIMPLE算法来选择重要协变量。JIA和Rohe [4] 研究了Puffer变换方法,并证明了改进后的Pre-Lasso变量选择过程可以满足变量选择的一致性。但是JIA和Rohe [4] 中的预处理技术可能会夸大误差项的方差,使变换后的观测值往往包含相关误差,从而导致偏相关方法对获得相关协变量的信号强度无效 [3] - [5] 。而XUE和QU [6] 提出的半标准偏协方差函数(SPAC)方法则可以在结合系数强度的同时,减少其他协变量相关性的影响。

基于此,本文将进一步基于SPAC方法的变量选择方法,对纵向数据下的广义线性模型,提出一种基于SPAC-Lasso惩罚的变量选择方法,并且在一些正则性条件下,证明了所提出的SPAC-Lasso变量选择方法的相合性,并给出了正则估计量的收敛速度。

2. 基于SPAC-Lasso变量选择过程

假设模型(1.1)中的回归系数 β 是稀疏的,即与响应变量相关的重要协变量很少,其对应的系数不为零。进一步设重要协变量的个数为q,则当 1 k q β k 0 ,当 q < k p β k = 0 。类似XUE和QU [6] ,定义响应变量Y与第k个协变量 X k 之间的SPAC如下:

γ k = β k / ω k k 1 / 2 , k = 1 , , p (2.1)

其中 ω k k 是矩阵 Ω = Σ 1 的第k个对角线元素, Σ = V a r ( X i j ) 表示 X i j 的协方差矩阵。注意到 γ k = 0 当且仅当 β k = 0 k = 1 , , p ,所以我们可以通过识别 γ k 是否为零来进行选择模型的重要协变量。由(2.1)可知 β k = γ k ω k k 1 / 2 k = 1 , , p ,进而再由模型(1.1)可得:

Ε ( Y i j | X i j ) = g ( k = 1 p X i j k γ k ω k k 1 / 2 ) , i = 1 , , n ; j = 1 , , m (2.2)

γ = ( γ 1 , , γ p ) T ,则 γ 的惩罚估计 γ ^ = ( γ ^ 1 , , γ ^ p ) T 可以通过最小化如下带惩罚的目标函数得到:

L ( γ , ω ^ ) = 1 n i = 1 n j = 1 m { Y i j k = 1 p x i j k γ k ω ^ k k b ( k = 1 p x i j k γ k ω ^ k k ) } + k = 1 p p λ ( γ k ) ω ^ k k , (2.3)

其中 ω ^ = ( ω ^ 11 , , ω ^ p p ) T ω = ( ω 11 , , ω p p ) T 的相合估计量。注意到 Ω = Σ 1 以及 Σ = V a r ( X i j ) ,则可以利用矩估计方法给出 Σ 的估计,进而得到 ω 的估计。进一步,如果惩罚函数 p λ ( ) 取为Lasso惩罚,则 γ 的Lasso惩罚估计量定义为:

γ ^ = arg min γ [ 1 n i = 1 n j = 1 m { Y i j k = 1 p x i j k γ k ω ^ k k b ( k = 1 p x i j k γ k ω ^ k k ) } + 2 λ k = 1 p ω ^ k k | γ k | ] (2.4)

进一步记 X ˜ i j k = X i j k / ω ^ k k γ k = γ k ω ^ k k ,则(2.3)式中的惩罚似然函数可进一步改写为:

( γ ) = 1 n i = 1 n j = 1 m { Y i j k = 1 p X ˜ i j k γ k b ( k = 1 p X ˜ i j k γ k ) }

并且结合(2.4)式可得 γ k SPAC-Lasso估计量如下:

γ ^ = arg min γ ( ( γ ) + 2 λ k = 1 p | γ k | )

3. 渐进性质及证明

为表述方便,设 Χ i j 的前q个元素为模型的重要协变量,记为 Χ I ,并且 Χ i j 的后 p q 个元素为不重要协变量,记为 Χ II 。进一步,记 C ^ ( ω ) = ( 1 / n ) Χ i j Τ Η ( γ 0 , ω ) Χ i j V ^ 1 = d i a g { ω 11 1 / 2 , , ω p p 1 / 2 } ,且矩阵 C ^ ( ω ) 可以划分为以下块结构:

C ^ ( ω ) = ( C ^ 11 ( ω ) C ^ 12 ( ω ) C ^ 21 ( ω ) C ^ 22 ( ω ) ) , (3.1)

类似XUE和QU [6] C ^ ( ω ) 假定满足如下条件,即存在一个正常向量 η 使得:

| V II C ^ 21 ( ω ) C ^ 11 1 ( ω ) V 1 s i g n ( γ I ) | 1 η , (3.2)

其中 V I = d i a g { 1 / ω 11 1 / 2 , , 1 / ω q q 1 / 2 } V II = d i a g { 1 / ω q + 1 , q + 1 1 / 2 , , 1 / ω p p 1 / 2 } ,1是1的 ( p q ) × 1 向量, | | 表示取每个元素的绝对值。Bunea [7] 和Blazere [8] 在设计矩阵上提出了如下Stabil条件:对于 c , ε > 0 ,记限制集为 C ( c , ε ) = { ζ p : ζ II 1 c ζ I 1 + ε } ,那么对于任何 ζ C ( c , ε ) ,则存在 0 < k < 1 使得协方差矩阵满足:

ζ T ζ k ζ I 2 2 ε , (3.3)

另外为了得到SPAC-Lasso的变量选择相合性和正则估计的收敛速度,还需要一些正则性条件。

(C1) 存在常数 M 1 > 0 使得:

max 1 i j n max 1 k p | X i j k | M 1

(C2) 存在一个常数 B > 0 使得 β 0 1 B

(C3) C ^ ( ω ) 的特征值有界且均大于零。

(C4) 存在一个常数 M 2 > 0 和一个包含 γ 0 的开子集 B n ,使得 | b ( 3 ) ( X ˜ i j Τ γ ) | M 2 对所有 γ B n 和几乎所有 X ˜ i j 都成立,其中 b ( 3 ) ( ) 表示 b ( ) 的三阶导数。

(C5) 当 n ,假设 q log p / n 0 log n / n = o ( λ )

(C6) 对于任何常数 A > 2 ,存在常数 M 3 > 0 使得:

Pr ( max 1 k p | ω ^ k k ω k k | M 3 log n / n ) 1 ( 2 p ) A 2

条件(C1)~(C4)是广义线性模型的正则性条件 [3] - [5] ,详见WANG和TIAN [2] 、CUI [5] 、Bunea [7] 、Blazere [8] 、FAN和PENG [9] 。条件(C5)是证明主要定理所必需的,在其它文献中也很常见,如PENG [10] 和VandeGeer [11] 等人的条件(C6)假定了精度矩阵元素的估计量 ω ^ k k 的收敛速度,该条也类似XUE和QU [6] 和PENG [8] 的情况。如下定理3.1表明所提出的SPAC-Lasso方法可以得到参数 β 的相合估计,并给出了正则估计的收敛速度。

定理3.1假设正则性条件(C1)~(C6)成立,那么在条件(3.2)和(3.3)下,估计量 β ^ 满足:

β ^ β 0 1 4 c n k c 0 λ q + ( 1 + 1 λ ) 1 n c 0 ,

其中 c n = min | x | < M 1 ( 9 B + 2 n ) { b ( x ) / 2 } c 0 > 0

证明:根据 γ ^ 的定义和文献 [8] ,我们有:

n ( γ ^ ) + 2 λ γ ^ 1 n ( γ 0 ) + 2 λ γ 0 1 ,

通过将 n ( ( γ ^ ) ( γ 0 ) ) + λ γ ^ γ 0 1 加到上述不等式的两侧并重新排列,我们得到:

n ( ( γ ^ ) ( γ 0 ) ) + λ γ ^ γ 0 1 ( n ) ( ( γ 0 ) ( γ ^ ) ) + λ γ ^ γ 0 1 + 2 λ γ 0 1 2 λ γ ^ 1 (3.4)

根据文献 [3] 引理3.2,我们可以证明:

( n ) ( ( γ 0 ) ( γ ^ ) ) λ γ ^ γ 0 1 + λ ε n

在事件 A n 上成立。然后,可以将不等式(3.4)重写为:

n ( ( γ ^ ) ( γ 0 ) ) + λ γ ^ γ 0 1 2 λ γ ^ γ 0 1 + 2 λ γ 0 1 2 λ γ ^ 1 + λ ε n , (3.5)

请注意, γ ^ II γ ^ 0II 1 + γ ^ 0II 1 γ ^ II 1 = 0 。否则, γ 0 I 1 γ ^ I 1 γ ^ I γ 0 I 1 基于三角不等式成立。因此,(3.5)式的不等式界可以是:

4 λ γ ^ I γ 0 I 1 + λ ε n , (3.6)

根据第二节中 γ 0 的定义,我们有 n ( ( γ ^ ) ( γ 0 ) ) > 0 ,并且:

γ ^ γ 0 I 1 4 γ ^ I γ 0 I 1 + ε n

通过简单的代数,我们有:

γ ^ II γ 0 II 1 3 γ ^ γ 0 I 1 + ε n (3.7)

也就是说, γ ^ γ 0 C ( 3 , ε n )

接下来,我们将给出 n ( ( γ ^ ) ( γ 0 ) ) 的下界。结合二阶泰勒展开式和文献 [5] n ( γ ^ ) 的定义,以及条件(C6),我们得到了:

n ( ( γ ^ ) ( γ 0 ) ) = Ε [ Y i j X ˜ i j Τ γ ^ + b ( X ˜ i j Τ γ ^ ) + Y i j X ˜ i j Τ γ 0 b ( X ˜ i j Τ γ 0 ) ] = Ε [ Y i j X ˜ i j Τ γ ^ + Y i j X ˜ i j Τ γ 0 ] + Ε [ b ( X ˜ i j Τ γ ^ ) b ( X ˜ i j Τ γ 0 ) ] = Ε [ Ε ( Y i j | X i j ) ( X ˜ i j Τ γ ^ X ˜ i j Τ γ 0 ) ] + Ε [ b ( X ˜ i j Τ γ 0 ) ( X ˜ i j Τ γ ^ X ˜ i j Τ γ 0 ) ] + Ε [ 1 2 b ( X ˜ i j Τ γ ˜ ) ( X ˜ i j Τ γ ^ X ˜ i j Τ γ 0 ) 2 ] c n Ε ( X ˜ i j Τ γ ^ X ˜ i j Τ γ 0 ) 2 ,

其中 X ˜ i j Τ γ ˜ X ˜ i j Τ γ ^ X ˜ i j Τ γ 0 之间的中间点, c n = min | x | < M 1 ( 9 B + 2 n ) { b ( x ) / 2 } | X ˜ i j Τ γ ˜ | M 1 ( 9 B + 2 / n )

我们得到了:

λ γ ^ γ 0 1 + c n k γ ^ I γ 0 I 2 2 4 λ q k = 1 q ( γ ^ k γ 0 k ) 2 + ( λ + 1 ) ε n , (3.8)

结合对于所有 t > 0 2 x y t x 2 + y 2 / t 的事实,(3.8)更进一步展示:

λ γ ^ γ 0 1 + c n k γ ^ I γ 0 I 2 2 4 t λ 2 q + 1 t γ ^ I γ 0 I 2 2 + ( λ + 1 ) ε n , (3.9)

在(3.9)式中用 c n k 替换t,我们有:

γ ^ γ 0 1 4 c n k λ q + ( 1 + 1 λ ) ε n , (3.10)

根据条件(C2)、(C5)和(C6),存在常数 c B > 0 使得 γ 0 1 c B q ,则:

β ^ β 0 1 = V ^ 1 γ ^ V 1 γ 0 1 = V ^ 1 γ ^ V 1 γ 0 1 + V ^ 1 γ 0 V 1 γ 0 1 1 c 0 [ 4 c n k λ q + ( 1 + 1 λ ) ε n ] + c B q M 3 log n / n = 4 c n k c 0 ( λ q ) + ( 1 + 1 λ ) 1 n c 0 .

至此,我们完成了定理3.1的证明。

如下定理3.2表明所提出的SPAC-Lasso方法可以依概率趋于1,正确地选择出真模型。

定理3.2 假设正则性条件(C1)~(C6)成立,那在(3.2)式和(3.3)式中,则以至少 1 ( 2 p ) A 2 的概率有: γ ^ = s γ 0

证明:以至少 1 ( 2 p ) A 2 的概率存在下列受限问题的解 γ ^ R = γ ^ ( λ , ω ^ )

min γ : γ II = 0 { L ˜ ( γ , ω ^ ) + 2 λ k = 1 p ω k k | γ k | } , (3.11)

其中 L ˜ ( γ , ω ^ ) = n 1 i = 1 n j = 1 m { Y i j k = 1 p x i j k γ k ω ^ k k b ( k = 1 p x i j k γ k ω ^ k k ) }

事实上,对任意常数 M 0 和向量 h = ( h 1 , , h p ) Τ h 1 = M 0 ,最后 p q 个元素 h Ι Ι = 0

h Ι L ˜ γ ( γ 0 , ω ^ ) Ι 分别是h和 L ˜ γ ( γ 0 , ω ^ ) 的第q元素。根据伯恩斯坦不等式,存在一个常数 c 3 > 0 使得:

Pr ( L ˜ γ ( γ 0 , ω ^ ) Ι > c 3 log ( n ) n ) = Pr ( max 1 k q | L ˜ γ k ( γ 0 , ω ^ ) Ι | > c 3 log ( n ) n ) q Pr ( | L ˜ γ k ( γ 0 , ω ^ ) Ι | > c 3 log ( n ) n ) ( 2 p ) A 2 .

因此,通过文献 [7] 引理6.3和条件(C3)和(C6),存在常数 C M > 0 ,使得:

L ˜ ( γ 0 + a n h , ω ^ ) L ( γ 0 , ω ^ ) = L ˜ ( γ 0 + a n h , ω ^ ) L ˜ ( γ 0 , ω ^ ) + 2 λ k = 1 p ω ^ k k | γ 0 k + a n h k | 2 λ k = 1 p ω ^ k | γ 0 k | 1 4 a n 2 h Ι Τ V Ι 1 C ^ 11 ( ω ^ ) V Ι 1 h Ι 2 λ a n k = 1 p ω ^ k k | h k | 1 4 a n 2 C M M 0 2 / q C 0 M 0 a n 2 / q .

如果我们取上述不等式的 M 0 = 4 C 0 / C M + c 6 ,其中 c 6 > 0 ,则:

min γ : γ II = 0 , h 1 = M 0 L ( γ 0 + a n h , ω ^ ) L ( γ 0 , ω ^ )

保持概率至少为 1 ( 2 p ) A 2 ,也就是说,存在 L ( γ , ω ^ ) 的局部极小值。

接下来证明以至少 1 ( 2 p ) A 2 的概率有: γ ^ = s γ 0 ,据定理3.2和条件(C5),我们有:

Pr ( γ ^ R = s γ ) Pr ( γ ^ R γ 0 1 M { λ q + ( 1 + λ 1 ) n 1 } , min 1 k q | γ 0 k | 2 M { λ q + ( 1 + λ 1 ) n 1 } ) 1 ( 2 p ) A 2 .

在定理3.2相同的条件下,则(3.11)式的解满足:

Pr ( max q + 1 k p { | 1 ω ^ k k L ˜ γ k ( γ ^ R , ω ^ ) | } 2 λ ) 1 ( 2 p ) A 2

我们有:

| 1 ω ^ k k L ˜ γ k ( γ 0 , ω ^ ) | 1 c 0 L ˜ γ k ( γ 0 , ω ^ ) I c 3 c 0 log ( n ) n = o ( λ ) (3.12)

保持概率至少为 1 ( 2 p ) A 2 。根据条件(C3)~(C6)和三角不等式,存在一个常数 c 7 > 0 ,使得(3.12)式中第三项的绝对值在 c 7 c 3 log ( n ) / n = o ( λ ) 上有界,概率至少为 1 ( 2 p ) A 2

至此,我们完成了定理3.2的证明。

基金项目

国家社会科学基金一般项目(18BTJ035);重庆市自然科学基金面上项目(CSTC2020JCYJ-msxm0006);重庆工商大学研究生创新型科研项目(yjscxx2023-211-193)。

NOTES

*第一作者。

References Avella-Medina, M. and Ronchetti, E. (2017) Robust and Consistent Variable Selection in High-Dimensional Generalized Linear Models. Biometrika, 105, 31-44. >https://doi.org/10.1093/biomet/asx070 Wang, M. and Tian, G. (2017) Adaptive Group Lasso for High-Dimensional Generalized Linear Models. Statistical Papers, 60, 1469-1486. >https://doi.org/10.1007/s00362-017-0882-z Buhlmann, P., Kalisch, M. and Maathuis, M.H. (2010) Variable Selection in High-Dimensional Linear Models: Partially Faithful Distributions and the Pc-Simple Algorithm. Biometrika, 97, 261-278. >https://doi.org/10.1093/biomet/asq008 Jia, J. and Rohe, K. (2015) Preconditioning the Lasso for Sign Consistency. Electronic Journal of Statistics, 9, 1150-1172. >https://doi.org/10.1214/15-ejs1029 Cui, Y., Chen, X. and Yan, L. (2017) Adaptive Lasso for Generalized Linear Models with a Diverging Number of Parameters. Communications in Statistics—Theory and Methods, 46, 11826-11842. >https://doi.org/10.1080/03610926.2017.1285926 Xue, F. and Qu, A. (2023) Semi-standard Partial Covariance Variable Selection When Irrepresentable Conditions Fail. Statistica Sinica, 32, 1881-1909. >https://doi.org/10.5705/ss.202020.0495 Bunea, F. (2008) Honest Variable Selection in Linear and Logistic Regression Models via ℓ1 and ℓ1+ℓ2 Penalization. Electronic Journal of Statistics, 2, 1153-1194. >https://doi.org/10.1214/08-ejs287 Blazere, M., Loubes, J. and Gamboa, F. (2014) Oracle Inequalities for a Group Lasso Procedure Applied to Generalized Linear Models in High Dimension. IEEE Transactions on Information Theory, 60, 2303-2318. >https://doi.org/10.1109/tit.2014.2303121 Fan, J. and Peng, H. (2004) Nonconcave Penalized Likelihood with a Diverging Number of Parameters. The Annals of Statistics, 32, 928-961. >https://doi.org/10.1214/009053604000000256 Peng, J., Wang, P., Zhou, N. and Zhu, J. (2009) Partial Correlation Estimation by Joint Sparse Regression Models. Journal of the American Statistical Association, 104, 735-746. >https://doi.org/10.1198/jasa.2009.0126 van de Geer, S.A. (2008) High-Dimensional Generalized Linear Models and the Lasso. The Annals of Statistics, 36, 614-645. >https://doi.org/10.1214/009053607000000929
Baidu
map