1. 引言
近年来,Gabay等[1]提出的交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)由于能够解决套索问题[2]、矩阵完成问题[3]等凸优化问题而得到了广泛的关注。许多学者对ADMM的收敛性进行了分析[4] [5]。此外,部分学者还存在对ADMM的收敛速度的研究。例如,He等[6]利用变分不等式给出了ADMM在遍历意义上的收敛速度为O(1/k) (k表示迭代度量),其研究问题为:
并且Davis等[7]指出,在遍历意义上的收敛速度是紧的。此外,对于非遍历意义,He等[8]表明ADMM的收敛速度为
,Davis等[7]也指出它是紧密的。
ADMM最初被用于求解具有线性约束的凸优化问题。目前,为了得到更广泛的应用,ADMM发展了两个方面:(1) 算法的推导。如通过线性化增强项和光滑目标函数[9]的线性化版本,以及通过将线性ADMM与Nesterov加速度[10]相结合的Fast-ADMM (FADMM)等。(2) 应用范围的扩展。一些研究人员已经将其扩展到更一般的约束,包括线性等式约束、线性不等式约束和非线性约束等[11]。
非凸目标函数的ADMM是近年来研究的热点之一。例如,Wang等[12]利用布雷格曼距离提出了近似ADMM。Zhang等[13]使用指数平均布雷格曼距离到所有历史迭代近似ADMM。最近,Guo等[14]使用ADMM用来求解线性约束下的非凸目标函数,即
(1)
其迭代格式为:
在本文中,受式(1)的启发,考虑了以下形式的具有非线性约束的优化问题:
(2)
式中,
是一个下半连续函数,
是一个连续可微的函数,并且
满足L > 0的利普希兹连续,
是一个矩阵,
是一个向量,y中每个元素非零。另外,
表示为问题(2)的增广拉格朗日函数,其定义为:
(3)
式中,
在表示2-范数。
目前,还没有研究表明可以将ADMM用于问题(2)。因此,本文将使用ADMM来解决不同凸性假设下的问题(2)。我们将通过Kurdyka-Lojasiewicz (KL)不等式证明,如果增广拉格朗日函数是KL函数,那么ADMM生成的序列收敛到问题(2)的Karush-Kuhn-Tucker (KKT)点。最后用一些数值实验来说明其ADMM的有效性。
2. 预备知识
在本节中,将回顾一些关于非凸非光滑问题下的次梯度微分的符号和相关概念[15]。
是点对集的映射,其图被定为:
对任意的集合
,任意的点
,若S非空,点x到S的距离记为:
(4)
若
,则令
。
定义1 [8]:若函数
在
处满足
,则称函数f在
处下半连续。若f在每一点处均下半连续,则称f为下半连续函数。
定义2 [16]:设函数
为适当下半连续函数:
(1) f在
处的Fréchet次微分定义为
当
时,令
。
(2) f在
处的极限次微分定义为
注1
(1) 极限次微分是通过在x附近的点取Fréchet次微分的极限得到的,即定义2意味着
对于每个
,其中第一个集合是闭凸的,而第二个集合仅是闭的。并不是在所有
处都有Fréchet次微分。
(2)
为f的极小值的一个必要条件是
。
(3) 设
为一个序列,收敛到
。根据
的定义,如果
收敛到
,则
。
(4) 如果
是一个适当的下半连续函数,
是连续可微的,那么对于任意
,有
。
引理1 [17]:设函数
,其中
和
都是适当下半连续函数。当
,有
定义3 [17]:(KL不等式) 设
为一个适当的下半连续函数。对于
,
。
我们说函数f在
处具有KL性质,如果存在
,
的一个邻域U,以及一个连续凹函数
,使得
(1)
;
(2)
在
上连续可微且在0处连续;
(3)
;
(4) 对于所有x在
中,KL不等式成立
。
定义4 [18]:(一致KL性质) 设
为一个紧集,函数
是一个适当的下半连续函数。
(1) 如果在给定点
处,存在
,和
使得对于所有
,
且以下不等式成立
。
(2) 如果f在
上的任意点都满足(1),则f是一个KL函数。
定义5 [19]:(梯度利普希茨连续) 给定一个可微函数f,对于所有
,如果存在
,使得
。
引理2 [19]:(二次上界) 设可微函数f的定义域为
,并且
是利普希茨连续的,L为其利普希茨常数,则f具有二次上界:
。
定义6:
是问题(2)的增广拉格朗日函数
的一个临界点。则其满足
备注1:定义6中,我们可以看“
”表示两个向量相乘得到一个新的向量。下文中的表示意义同上。
定理1 [20]:(有限长度性质) 设函数
是一个KL函数,并且满足下面的假设:
(1)
和
均是适当下半连续函数,并且
以及
;
(2)
是个连续可微函数,并且
在有界集上是联合利普希茨连续的,即对任意的
有
则有以下结论成立:
(1) 序列
的长度有限,即
(2) 序列
收敛到
的一个临界点
。
备注2:续可根据临界点的性质,
是一个非空紧集,并且
在
上连续。在定义4中,设
,对于任意的
(l是一个足够大的正整数),
备注3:定理1中
的迭代序列是收敛的。不难看出,问题(2)中
的临界点正是其KKT点。
引理3:设迭代序列
收敛到
。则总存在N使得对于
,使得
3. 收敛性分析
在本节中,假设问题(2)至少存在一个KKT点。此外,假设问题(2)中的两个子问题的最小化问题都具有解。因此,问题(2)的ADMM是定义良好的,并且生成一个无限迭代序列
。求解问题(2)的ADMM设计如下:
(5)
根据问题(2)的优化条件,有
(6)
基于(6)和(5)中的第三个等式,得到
(7)
在本文中,我们还做了以下假设:
假设1:设
是一个适当的下半连续函数,
是一个可微函数,并且
满足利普希茨连续,并且
。假设
使得
。
为了后续讨论,需要以下引理:
引理4:设
是
的一个临界点,并且
中的每个元素均不为0。设
为算法(5)生成的序列。假设假设1成立并且
收敛到
。存在一个N当
,则有
(8)
证明:基于增广拉格朗日函数
的定义,有
(9)
和
(10)
由于
满足
的利普希兹连续,根据引理2和式(7)中的第二个等式,可得:
(11)
将(11)带入到(10)中可得:
(12)
回忆
,
即
然后
(13)
组合(12)和(13),可得
(14)
而
(15)
从式(15)中容易看出,存在一个N,当
时,根据引理3,可得:
根据
可得:
(16)
利用定义5和等式(7)当中的第二个等式,可得:
(17)
根据式(17),可以知道存在一个利普希茨常数L,使得:
(18)
组合(9)、(16)和(18)可得:
.
其中,上述第二个不等式满足
是
中关于x的最小值,即
令
,则
因此,引理4成立。
备注4:由于
和
,则说明
。然而对于任意的k,都有
,这就意味着
。因此,存在
使得
。
备注5:由
,根据引理3,
单调递减。
接下来,我们给出一些充分条件来保证算法(5)生成的序列
是有界的。
引理5:设
是算法(5)生成的序列,并假设
那么以下陈述是正确的。
(1) f是强制性的,即
;
(2) 存在常数
。
证明:根据引理4,可得:
然后,结合
,可得:
观察陈述(1)意味着
。由
得到
和
是有界的。因此,
是有界的,从而,
是有界的。
引理6:设
是算法(5)生成的序列,且
是有界的。那么,
(19)
证明:为了证明(19)成立,考虑三种情况:
首先,证明
。由于
是有界的,它至少有一个聚点。设
是
的一个聚点,
是收敛到它的子序列,即
。由于f是下半连续的且g是连续的,
是下半连续的,可得:
由于
收敛,所以
有界。此外,
是收敛的,并且
。根据式(8),可得:
(20)
根据式(20),可得:
由于
,有:
其次,证明
。这显然来自于方程(18)。
最后,证明
。回忆
那么
所以
(21)
根据
,有
(22)
然后,根据公式(21)和公式(22),可以看出
因此,引理6的结果成立。
备注4:如果
于是有界的,那么容易推
而无需保证
的有界性。
引理7:设
是算法(5)生成的序列,且
是有界的。定义
则有
此外,存在
,使得
证明:根据增广拉格朗日函数
,我们可知
下再结合(7),可得
因此,根据引理1,我们可知
。除此之外,存在
使得
连通过定义
,再根据(18)可知
这就完成了此引理的证明。
引理8:设
是算法(5)生成的序列,且
是有界的。令
表示其极限点的集合。那么:
(1)
;
(2)
在
上是有限的且为常数;
(3)
是一个非空连通的紧集,并且
定理2:设
是算法(5)生成的序列,且
是有界的。假设f和g是半代数函数,那么
具有有限长度,即
因此,
收敛到
的一个临界点。
证明:从引理8可知,对于所有
,有
,考虑两种情况:
(1) 如果存在一个整数
,使得
。根据方程(8)以及备注3,对于任意
,有
。
对于任意
,有
。结合引理5的证明,对于任意
,有
,因此定理2成立。
(2) 假设对于所有k都有
。由于
,对于任意
,存在
,使得对于任何
,有
。再次,由于
,对于任意
,存在
,使得对于任意
,有
。因此,对于所有
,当
时,
,
由于
是一个非空紧集,并且
在
上是常数,应用定义4中
,推导出对于任意
,有
.
由于
根据
的凹性,可得
关联
,得到
(23)
设
。
结合引理3和不等式(23),得到对于所有
,
(24)
从方程(24)可以得出
(25)
注意到
,重写(25),并令
,有
(26)
这意味着
。
从方程(18),知道
。
另一方面,从方程(21)和方程(22)可以得出
且
是一个柯西序列(参见Botel等[18]的第482页的一个简单证明)。因此,根据备注3可知它是收敛的。
4. 数值实验分析
例1:二次规划(Quadratic Programming, QP)问题:二次规划(QP)是一个数学优化问题,其目标是求解满足一组线性或不等式约束的二次函数的最小值或最大值。在优化问题中,QP问题是一个非常重要的问题,因为它广泛应用于金融、工程、计算机视觉、机器学习等领域。QP问题的约束通常是线性约束,将其扩展到非线性约束问题,并通过以下例子来说明
上述问题的增广拉格朗日函数为
在此实验中,每个问题的子问题根据(5)进行求解。然后,列出了(5)的每次迭代过程中的子x问题和y子问题:
x子问题为
y子问题为
(a) β = 0.5 (b) β = 1
Figure 1. The relationship between function value and the number of iterations
图1. 函数值与迭代次数的关系
Table 1. Iteration results with different initial values
表1. 不同初始值下的迭代结果
x |
1 |
−2 |
−5 |
7 |
y |
1 |
−2 |
−5 |
−1 |
(x*, y*) |
(1.5, 1.0) |
(1.5, 1.0) |
(1.5, 1.0) |
(1.5, 1.0) |
β |
1 |
1 |
1 |
1 |
IT |
49 |
48 |
47 |
48 |
CPU |
5.691 |
6.238 |
6.274 |
5.346 |
β |
0.5 |
0.5 |
0.5 |
0.5 |
IT |
49 |
48 |
47 |
48 |
CPU |
5.657 |
5.561 |
6.120 |
4.367 |
在计算中,令
中的
,分别测试了四组
的初始值:S1:
;S2:
;S3:
;S4:
,分别取
和
。在这种情况下,图1和表1中显示了一些数值结果。从图1中可以看出,随着迭代次数的增加,函数值逐渐减少,最终达到平稳状态。通过表1可以看出,不同初始值达到最优解的迭代次数是不同的。在x和y的定义域下,发现
的变化不会影响最优解的变化,且最优解都是
。不出所料,随着参数
的增加,CPU时间变长。
例2:矩阵
,向量
。考虑问题(2)具体的函数形式为
,即
(27)
且
上述问题的增广拉格朗日函数为
在此实验中,每个问题的子问题根据(5)进行求解。在求解过程中,我们引入变量
,则问题(27)可改写为
.
对应的子问题为:
x子问题为
y子问题为
z相当于约束投影,其子问题为
(a) n = 1000 (b) n = 10,000
Figure 2. The relationship between
and the number of iterations
图2.
与迭代次数的关系
在实验中,设定
,初始向量为:
。在这种情况下,我们在图2中展示了当n = 1000和n = 10,000时的数值结果。很容易发现,当n = 1000时,在迭代562次后得到最优解,而当n = 10,000时,在迭代565次后得到最优解。虽然维数增加迭代次数也增多,但维数的变化对达到最优解的迭代次数变化的影响不是很显著。通过图2,我们可以看到横坐标和纵坐标反映了迭代次数与
的关系(
代表函数的最优解)。随着迭代次数的增加,
的值是递减的,并最终保持为平稳状态。这就表明
是非递增的,并最终收敛到
。
5. 结论
本文通过使用KL不等式,研究了带有绝对值形式非线性约束的最小化问题的ADMM,并证明了ADMM生成的迭代子序列收敛到问题的一个关键点。更重要的是,通过数值例子,进一步验证了本文设计的ADMM在带有绝对值形式的非线性约束的最小化问题中是实用的。值得注意的是,文章仅考虑了这种情况下y的每个元素都非零的情况,而包含零元素的y的另一种情况则有待进一步研究。
基金项目
云南师范大学研究生科研训练基金项目(YJSJJ23-B69)。
NOTES
*第一作者。
#通讯作者。