小样本高维度的n-p问题一直是统计学家的研究热点,不同于传统的变量选择的参数估计方法,在本篇论文中,我们应用迁移学习的相关知识,借用与需要预测数据相关但分布不同的数据,有效的帮助我们解决目标域数据参数的预测问题。我们提出了一种新颖的基于Dantzig selector的两步迁移学习算法,在数值模拟中,我们验证了提出的迁移学习算法在广义线性模型以及不同的协方差数据设计中的稳健性和有效性,这表明提出的算法具有一定的实际应用价值。 The problem of small samples and high dimensionality has always been a research hotspot for stat-isticians. Different from the traditional parameter estimation method of variable selection, in this paper, we apply the relevant knowledge of transfer learning, and borrow data with different distri-butions from those that need to be predicted. It effectively helps us solve the prediction problem of target domain data. We propose a novel two-step transfer learning algorithm based on Dantzig se-lector. In numerical simulations, we verify the robustness and effectiveness of the proposed transfer learning algorithm in generalized linear models as well as in different covariance data designs, which shows that the proposed algorithm has certain practical application value.
小样本高维度的n-p问题一直是统计学家的研究热点,不同于传统的变量选择的参数估计方法,在本篇论文中,我们应用迁移学习的相关知识,借用与需要预测数据相关但分布不同的数据,有效的帮助我们解决目标域数据参数的预测问题。我们提出了一种新颖的基于Dantzig selector的两步迁移学习算法,在数值模拟中,我们验证了提出的迁移学习算法在广义线性模型以及不同的协方差数据设计中的稳健性和有效性,这表明提出的算法具有一定的实际应用价值。
广义线性模型,Dantzig Selector,迁移学习,两步迁移学习算法
—Applied to Generalized Linear Models
Fei Sun, Shuna Liang*
Qingdao University, Qingdao Shandong
Received: Aug. 23rd, 2022; accepted: Sep. 18th, 2022; published: Sep. 27th, 2022
The problem of small samples and high dimensionality has always been a research hotspot for statisticians. Different from the traditional parameter estimation method of variable selection, in this paper, we apply the relevant knowledge of transfer learning, and borrow data with different distributions from those that need to be predicted. It effectively helps us solve the prediction problem of target domain data. We propose a novel two-step transfer learning algorithm based on Dantzig selector. In numerical simulations, we verify the robustness and effectiveness of the proposed transfer learning algorithm in generalized linear models as well as in different covariance data designs, which shows that the proposed algorithm has certain practical application value.
Keywords:Generalized Linear Model, Dantzig Selector, Transfer Learning, Two-Step Transfer Learning Algorithm
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
大数据时代的背景下,随着数据的规模和维度的增加,统计学习、机器学习算法能够得以成功的应用。但是使得这些算法被成功应用有一基本的假设,即:训练数据和预测数据要求同一分布,这一基本假设在实际生活中是难以满足的。此外,在健康医疗及电商平台中,常会出现用来训练数据标签不足的情形。迁移学习为一个新的机器学习框架,它是一种学习的思想和模式。具体而言,在机器学习范畴,迁移学习通过利用数据、任务或模型之间的相似性,将在旧领域学习过的模型和知识应用于新的领域。它可以很好的解决传统机器学习、统计模型不能适用的场合,利用和预测数据相关的数据,且相关数据的样本量是充足的。在迁移学习中,源域数据就是有知识、有大量数据标注的领域,是我们要迁移的对象;目标数据就是我们最终要赋予标注的对象。知识从源域传递到目标域,就完成了迁移 [
在统计学习中,高维度小样本的n-p问题一直是统计学家的研究热点。文献 [
基于基本统计模型的迁移学习,2021年 [
2022年,在模型参数稀疏的假定条件下,文献 [
在统计模型中,最为经典的模型便是线性模型,其理论方法也是其他统计模型研究或应用的基础,若给定 ( x , y ) ∈ R p × R ,y来自线性模型,则可被表示为:
y = x T β + ε (1)
其中 ε 服从高斯马尔科夫假设 :
E ( ε ) = 0
V a r ( ε ) = σ 2 (2)
C o v ( e i , e j ) = 0 , i ≠ j ; i , j = 1 , 2 , 3 , ⋯ , n
最小二乘估计是线性模型中最经典的参数估计方法,利用最小二乘估计所获得参数估计值,可以获得很多优良的性质,比如,此参数估计值具有无偏性,并且是一致最小方差无偏估计。但是当设计阵存在着复共线关系时,最小二乘估计的性质不够理想,有时甚至很坏。在这种情况下,我们就需要一些新的估计方法。因此,许多种新估计方法也被统计学家提出,其中在理论上最有影响并且得到广泛应用的就是岭估计,岭估计的本质是对于模型参数的 l 2 惩罚,其不仅很好的处理变量之间的复共线性,而且可以对参数估计进行压缩,但并不能达到变量筛选的目的。
广义线性模型是线性模型的扩展,其可以弥补线性模型的一些缺点,例如,线性模型的取值只能为连续型数据,但是实际生活中,分类数据是十分常见的。广义线性模型的概念最早由文献 [
y | x ~ P ( y | x ) = ρ ( y ) exp { y x T β − ψ ( x T β ) } (3)
上式可以被改写为:
y = f ( x T β ) + ε (4)
其中 ψ ( . ) 被称为链接函数。
易知, E ( y | x ) = f ( x T β ) = ψ ′ ( x T β ) , V a r ( y | x ) = ψ ″ ( x T β ) 且 ψ ( . ) 的函数形式是已知的。通过不同的
函数 ψ ( . ) 可以区分不同的广义线性模型。例如,当y是一个连续变量且 ψ ( u ) = 1 2 u 2 时,y服从线性模型;
当y的取值是二分类变量且 ψ ( u ) = log ( 1 + e u ) 时,y服从逻辑回归;当y的取值为非负整数且 ψ ( u ) = e u 时,y服从泊松回归。广义线性模型较于线性模型,不要求模型服从高斯马尔科夫假定,这放松了线性模型的假定条件,也大大的扩大了线性模型的使用范围。
对于高维的广义线性模型,统计学家也提出了许多经典的参数估计方法,比如:Lasso、Dantzig selector。Lasso方法的参数估计是一种约束模型参数的最小二乘估计器。假定数据 x i j 是经过标准化的,即
∑ j x i j n = 0 , ∑ j x i j 2 n = 1 。Lasso估计器可以被表示为:
‖ Y − f ( X β ) ‖ 2 + λ ‖ β ‖ 1 (5)
上式可以被等价表示为:
‖ Y − f ( X β ) ‖ 2 s .t ‖ β ‖ 1 ≤ λ (6)
Lasso的变量选择是通过阈值估计器实现的,简单描述为:
β j ^ L a s s o = sgn ( β j ^ L S ) ( | β j ^ L S | − λ ) + (7)
其中, ( a ) + 表示 max { 0 , a } , β ^ L S 是最小二乘估计计算出的参数估计值。
Lasso可以避免最小二乘估计的一些缺点,且Lasso估计算法是一个凸优化问题,计算复杂度低,计算速度快,无论是在理论上还是在实际的应用中,均可以取得较好的效果。在此基础上,Candes [
β = arg min β ‖ β ‖ 1 s .t . ‖ X T ( y − f ( X β ) ) ‖ ∞ ≤ λ (8)
虽然这些经典的统计学习方法的许多优良性质已经被统计学家证明出来,但是如前所述,这些方法已经不足以处理情形多变、日益复杂的数据。与传统的变量选择方法不同,我们应用迁移学习的思想来处理高维的广义线性问题。
迁移学习,顾名思义,就是要通过知识的迁移进行学习,达到事半功倍的效果。在人工智能和机器学习范畴,迁移学习就是一种学习的思想和模式。其主要的想法是可以类比为找到不同事物之间的相关性,然后进行“举一反三”、“照猫画虎” [
基于迁移学习的统计模型相关应用,最开始是由文献 [
的应用范围。给定多个源域数据 { ( X i , Y i ) } i = 1 , 2 , ⋯ , K 和目标域数据 ( X 0 , Y 0 ) ,源域数据和目标域数据均服从广
义线性模型,记源域数据的参数为 β i ( i = 1 , 2 , ⋯ , n ) ,目标域数据的参数为 β 0 。 β i ( i = 1 , 2 , ⋯ , n ) 与 β 0 通常是不相等的。迁移学习的总体思路可以概括为:开发算法来最大限度地利用有标注的领域的知识,来辅助目标领域的知识获取和学习。其核心是找到源域和目标域之间的相似性,相似性的度量就是描述源域和目标域的距离。在这篇论文中,我们利用 l 1 距离度量源域数据和目标域数据的相似性,定义可迁移数据集合为: { k : ‖ β k − β 0 ‖ 1 ≤ h , k = 1 , 2 , ⋯ , K } ,其中h是划分可迁移域和不可迁移域的阈值。
在本篇论文中,我们提出了一个新颖的两步迁移学习算法(Oracle Trans-DS)。在源域数据和目标域数据均不稀疏的情形下,如果直接使用上述经典的变量选择方法,则得到的参数估计的偏差是较大的。我们遵循文献 [
β i n i t = arg min β ‖ β ‖ 1 s .t . ‖ ∑ k X ( k ) T ( y ( k ) − f ( X ( k ) β ( k ) ) ) ‖ ∞ ≤ λ , k = 0 , 1 , 2 , ⋯ , K (9)
然后利用Lasso在目标域数据上对 β i n i t 进行偏差修正(纠偏步骤)。
δ ^ = ‖ Y ( 0 ) − f ( X 0 ( β + δ ) ) ‖ 2 + λ ‖ δ ‖ 1 (10)
详细的算法流程可以见图1。通过这样的迁移学习算法,可以有效的借助相关但分布不同的数据。从而较好的降低参数估计的误差。在第三节的数值模拟中,我们通过与经典的高维数据变量选择对比,可以很好的看出Oracle Trans-DS方法的优越性。
图1.算法1
在这节中,为了不失一般性,我们分别在线性模型,逻辑回归和泊松回归三种场合下,比较Oracle Trans-DS与Lasso、Dantzig selector估计高维广义线性模型参数的性能。其中,Naïve-Lasso、naïve- dantzig-selector表示仅使用目标域数据,分别利用Lasso、Dantzig selector估计高维数据的参数,Oracle Trans-DS表示用算法1估计得到的参数。
所有的模拟实验均使用R语言实现,其中Lasso通过glmnet包实现,Dantzig selector通过hdme包
实现,其中Lasso的调谐参数是通过10折交叉验证选择的,Dantzig selector的调谐参数设置为 C log p n 。
我们设置源域和目标域的样本维度均为p = 1000,可迁移的源域数K = 6,且样本量为 n 1 , n 2 , ⋯ , n K = 150 ,
目标域 n 0 = 100 。设置目标域的参数 β = ( 0.51 s , 0 p − s ) T ,设置 β ( k ) = β + h p R p ( k ) , h = 5 , k = 1 , 2 , ⋯ , K ,其中 R p ( k ) 表示以等概率取−1或1的p维随机向量,s的设置为25。我们以 l 2 估计误差( ‖ β ^ − β ‖ 2 )为评价指标,所有
的模拟实验都被重复100次,然后取其平均值。具体实验结果见下图2。
图2. 不同模型及稀疏度的 l 2 误差
通过图2可以发现,当数据之间存在较弱的相关性时,我们提出的Oracle Trans-DS方法是远远优于传统的变量选择方法naïve-Lasso、naïve-dantzig selector。当数据之间存在较强的相关性时,普遍来说,我们提出的算法的也是较优的,这说明我们提出的算法在解决高维数据的参数估计问题时具有稳健性和有效性。
在本篇论文中,我们提出了一种基于Dantzig selector的两步迁移学习算法,由数值模拟的分析可知,我们提出的方法的效率是较优的,并且将其运用到了广义线性模型的场合,大大提高了实际的应用价值。容易看出,我们提出迁移学习算法也是利用传统的统计学习方法。因此,将新的学习框架与经典的统计学习模型相结合,可以很好的解决统计学习中的n-p问题,这一思路同样启示我们,对于统计学习方法的应用应该与时俱进,从而使得统计模型能够适应新的时代要求。
如上所述,利用两步迁移学习算法能够解决不同分布、训练数据较少的问题,但是在这篇论文中,我们局限于源域数据和目标域数据服从均分布参数不同但类型相同的分布,其原因是,若源域数据和目标域数据服从的分布和参数均不同,在此种情况下,使用 l 1 距离度量相似性不再合适,故进一步的研究中,我们可以考虑利用其他的相似性度量准则,从而结合来自不同分布的源域数据,比如,在广义线性模型的框架的下,可以考虑源域部分源域数据来自线性模型,部分源域数据来自逻辑回归。这篇论文我们是在稀疏假定条件下,进行模型的迁移,但是现在生活中,稀疏假定这一情形往往是难以满足的。如何构建将新的统计学习模型与非稀疏数据的预测相结合,也是一个非常值得研究的问题。
迁移学习的效果依赖于相似性的度量准则,在这篇论文中,我们是用参数之间的 l 1 距离度量相似性,这种相似性的度量方式在理论上分析较为简单,且实际的运用中也较为容易实现,但是针对与某些场合,需要采用不同的相似性度量准则。文献 [
本篇论文由国家社会科学基金项目(No. 21BTJ045)资助。
孙 飞,梁淑娜. 基于Dantzig Selector的迁移学习——应用于广义线性模型Transfer Learning Based on Dantzig Selector—Applied to Generalized Linear Models[J]. 应用数学进展, 2022, 11(09): 6779-6786. https://doi.org/10.12677/AAM.2022.119718
https://www.doc88.com/p-79899021072337.html, 2020-08-13.
https://doi.org/10.1609/aaai.v27i1.8458
https://doi.org/10.1093/nar/gkaa349
https://doi.org/10.1016/j.specom.2014.12.008
https://doi.org/10.1109/TPAMI.2016.2587643
https://doi.org/10.1111/j.2517-6161.1996.tb02080.x
https://doi.org/10.1214/009053606000001523
https://doi.org/10.1198/016214506000000735
https://doi.org/10.1111/j.1467-9868.2005.00532.x
https://doi.org/10.1214/09-AOS729
https://doi.org/10.1080/01621459.2021.1969240
https://doi.org/10.3115/1610075.1610094
https://doi.org/10.1109/CVPR.2012.6247911
https://doi.org/10.1111/rssb.12479
https://doi.org/10.1287/mnsc.2020.3729
https://doi.org/10.1214/20-AOS1949
https://doi.org/10.1080/01621459.2022.2071278
https://doi.org/10.2307/2344614