带有绝对值形式的非线性约束下的交替方向乘子法
Alternating Direction Method of Multipliers under Nonlinear Constraints with Absolute Value Form
摘要: 交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)广泛应用于线性约束优化问题,无论是凸目标函数还是非凸目标函数,其约束一般是线性约束。文章研究了具有绝对值形式的非线性约束的非凸极小化问题的ADMM。在假设相关函数满足Kurdyka-Lojasiewicz (KL)不等式的情况下,证明了由ADMM生成的迭代子序列收敛于问题的一个临界点,并根据一些数值例子说明了ADMM是可行的。
Abstract: The Alternating Direction Method of Multipliers (ADMM) is widely used for linear constraint optimization problems, whether the objective function is convex or non-convex, with constraints generally being linear. This article studies the ADMM applied to non-convex minimization problems with nonlinear constraints in the form of absolute values. Under the assumption that the relevant functions satisfy the Kurdyka-Lojasiewicz (KL) inequality, it is proved that the iterative subsequence generated by ADMM converges to a critical point of the problem. Additionally, some numerical examples are provided to illustrate the feasibility of ADMM.
文章引用:叶景然, 陈跨越, 杨硕, 苏映梅. 带有绝对值形式的非线性约束下的交替方向乘子法[J]. 应用数学进展, 2025, 14(3): 382-397. https://doi.org/10.12677/aam.2025.143126

1. 引言

近年来,Gabay等[1]提出的交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)由于能够解决套索问题[2]、矩阵完成问题[3]等凸优化问题而得到了广泛的关注。许多学者对ADMM的收敛性进行了分析[4] [5]。此外,部分学者还存在对ADMM的收敛速度的研究。例如,He等[6]利用变分不等式给出了ADMM在遍历意义上的收敛速度为O(1/k) (k表示迭代度量),其研究问题为:

min { f 1 ( x 1 ) + f 2 ( x 2 ) | A 1 x 1 + A 2 x 2 b = 0 }

并且Davis等[7]指出,在遍历意义上的收敛速度是紧的。此外,对于非遍历意义,He等[8]表明ADMM的收敛速度为 O ( 1 / k ) ,Davis等[7]也指出它是紧密的。

ADMM最初被用于求解具有线性约束的凸优化问题。目前,为了得到更广泛的应用,ADMM发展了两个方面:(1) 算法的推导。如通过线性化增强项和光滑目标函数[9]的线性化版本,以及通过将线性ADMM与Nesterov加速度[10]相结合的Fast-ADMM (FADMM)等。(2) 应用范围的扩展。一些研究人员已经将其扩展到更一般的约束,包括线性等式约束、线性不等式约束和非线性约束等[11]

非凸目标函数的ADMM是近年来研究的热点之一。例如,Wang等[12]利用布雷格曼距离提出了近似ADMM。Zhang等[13]使用指数平均布雷格曼距离到所有历史迭代近似ADMM。最近,Guo等[14]使用ADMM用来求解线性约束下的非凸目标函数,即

min { f ( x ) + g ( y ) | A x + y b = 0 } (1)

其迭代格式为:

{ x k + 1 arg min { β ( x , y k , λ k ) } y k + 1 arg min { β ( x k + 1 , y , λ k ) } λ k + 1 = λ k β ( A x k + 1 + y k + 1 b ) .

在本文中,受式(1)的启发,考虑了以下形式的具有非线性约束的优化问题:

min { f ( x ) + g ( y ) | A x + | y | b = 0 } (2)

式中, f : R n R { + } 是一个下半连续函数, g : R m R 是一个连续可微的函数,并且 g 满足L > 0的利普希兹连续, A R n × n 是一个矩阵, b R n 是一个向量,y中每个元素非零。另外, β ( ) 表示为问题(2)的增广拉格朗日函数,其定义为:

β ( x , y , λ ) = f ( x ) + g ( y ) λ , ( A x + | y | b ) + β 2 A x + | y | b 2 (3)

式中, 在表示2-范数。

目前,还没有研究表明可以将ADMM用于问题(2)。因此,本文将使用ADMM来解决不同凸性假设下的问题(2)。我们将通过Kurdyka-Lojasiewicz (KL)不等式证明,如果增广拉格朗日函数是KL函数,那么ADMM生成的序列收敛到问题(2)的Karush-Kuhn-Tucker (KKT)点。最后用一些数值实验来说明其ADMM的有效性。

2. 预备知识

在本节中,将回顾一些关于非凸非光滑问题下的次梯度微分的符号和相关概念[15] F : R n R m 是点对集的映射,其图被定为:

G r a p h ( F ) = { ( x , y ) R n × R m : y F ( x ) } .

对任意的集合 S R n ,任意的点 x R n ,若S非空,点xS的距离记为:

d ( x , S ) = inf y S y x . (4)

S = ,则令 d ( x , S ) = +

定义1 [8]:若函数 f : R n R { + } x 0 处满足 f ( x 0 ) lim inf x x 0 f ( x ) ,则称函数f x 0 处下半连续。若f在每一点处均下半连续,则称f为下半连续函数。

定义2 [16]:设函数 f : R n R { + } 为适当下半连续函数:

(1) f x d o m f 处的Fréchet次微分定义为

^ f ( x ) = { u R n : lim y x inf y x f ( y ) f ( x ) u , y x y x 0 } .

x d o m f 时,令 ^ f ( x ) =

(2) f x d o m f 处的极限次微分定义为

f ( x ) = { u R n : x k x , f ( x k ) f ( x ) and u k ^ f ( x ) u as k } .

1

(1) 极限次微分是通过在x附近的点取Fréchet次微分的极限得到的,即定义2意味着 ^ f ( x ) f ( x ) 对于每个 u R n ,其中第一个集合是闭凸的,而第二个集合仅是闭的。并不是在所有 x d o m f 处都有Fréchet次微分。

(2) x d o m f f的极小值的一个必要条件是 0 f ( x )

(3) 设 ( x k , x k * ) G r a p h ( f ) 为一个序列,收敛到 ( x , x * ) 。根据 f ( x ) 的定义,如果 f ( x k ) 收敛到 f ( x ) ( k + ) ,则 ( x , x * ) G r a p h ( f )

(4) 如果 f : R n R { + } 是一个适当的下半连续函数, g : R n R 是连续可微的,那么对于任意 x d o m f ,有 ( f + g ) = f ( x ) + g ( y )

引理1 [17]:设函数 G ( x , y ) = f ( x ) + h ( y ) ,其中 f : R n R { + } h : R m R 都是适当下半连续函数。当 ( x , y ) d o m G = d o m f × d o m h ,有

G ( x , y ) = x G ( x , y ) × y G ( x , y ) .

定义3 [17]:(KL不等式) 设 f : R n R { + } 为一个适当的下半连续函数。对于 < η 1 < η 2 +

[ η 1 < f < η 2 ] = { x R n : η 1 < f ( x ) < η 2 }

我们说函数f x * d o m f 处具有KL性质,如果存在 η ( 0, + ] x * 的一个邻域U,以及一个连续凹函数 φ : [ 0 , η ) R + ,使得

(1) φ ( 0 ) = 0

(2) φ ( 0 , + ) 上连续可微且在0处连续;

(3) s ( 0 , η ) , φ ( s ) > 0

(4) 对于所有x U [ f ( x * ) < f < f ( x * ) + η ] 中,KL不等式成立

φ ( f ( x ) f ( x * ) ) d ( 0 , f ( x ) ) 1

定义4 [18]:(一致KL性质) 设 Ω 为一个紧集,函数 f : R n R { + } 是一个适当的下半连续函数。

(1) 如果在给定点 x ¯ d o m f = { x | f ( x ) } 处,存在 ε > 0 , η > 0 ,和 φ Φ η 使得对于所有 x ¯ Ω

{ x R n : d ( x , Ω ) < ε } [ f ( x ¯ ) < f < f ( x ¯ ) + η ]

且以下不等式成立

φ ( f ( x ) f ( x ¯ ) ) d ( 0 , f ( x ) ) 1

(2) 如果f d o m f 上的任意点都满足(1),则f是一个KL函数。

定义5 [19]:(梯度利普希茨连续) 给定一个可微函数f,对于所有 x , y d o m f ,如果存在 L > 0 ,使得

f ( x ) f ( y ) L x y

引理2 [19]:(二次上界) 设可微函数f的定义域为 R n ,并且 f 是利普希茨连续的,L为其利普希茨常数,则f具有二次上界:

| f ( y ) f ( x ) f ( x ) T ( y x ) | L 2 y x 2 , x , y d o m f

定义6 ( x * , y * , λ * ) 是问题(2)的增广拉格朗日函数 β ( ) 的一个临界点。则其满足

A T λ * f ( x * ) ; g ( y * ) = λ * sign ( y * ) ; A x * + | y * | b = 0.

备注1定义6中,我们可以看“ ”表示两个向量相乘得到一个新的向量。下文中的表示意义同上。

定理1 [20](有限长度性质) 设函数 Ψ 是一个KL函数,并且满足下面的假设:

(1) f : R n ( , + ] g : R m ( , + ] 均是适当下半连续函数,并且 inf R n × R m Ψ > , inf R n f > 以及 inf R m g >

(2) H : R n × R m R 是个连续可微函数,并且 H 在有界集上是联合利普希茨连续的,即对任意的 B 1 × B 2 R n × R m , L > 0 , ( x i , y i ) B 1 × B 2 , i = 1 , 2

( x H ( x 1 , y 1 ) x H ( x 2 , y 2 ) , y H ( x 1 , y 1 ) y H ( x 2 , y 2 ) ) L ( x 1 x 2 , y 1 y 2 ) .

则有以下结论成立:

(1) 序列 { z k } 的长度有限,即

k = 1 z k + 1 z k < + ;

(2) 序列 { z k } 收敛到 Ψ 的一个临界点 z * = ( x * , y * )

备注2续可根据临界点的性质, ω ( z 0 ) 是一个非空紧集,并且 Ψ ω ( z 0 ) 上连续。在定义4中,设 Ω = ω ( z 0 ) ,对于任意的 k > l (l是一个足够大的正整数),

φ ( Ψ ( z k ) Ψ ( z ¯ ) ) d ( 0 , Ψ ( z k ) ) 1.

备注3定理1中 { z k } 的迭代序列是收敛的。不难看出,问题(2)中 β ( ) 的临界点正是其KKT点。

引理3:设迭代序列 { y k } 收敛到 { y * } , y k R n 。则总存在N使得对于 k > N ,使得

sign ( y k ) = sign ( y k + 1 ) .

3. 收敛性分析

在本节中,假设问题(2)至少存在一个KKT点。此外,假设问题(2)中的两个子问题的最小化问题都具有解。因此,问题(2)的ADMM是定义良好的,并且生成一个无限迭代序列 { ( x k , y k , λ k ) } 。求解问题(2)的ADMM设计如下:

{ x k + 1 arg min { β ( x , y k , λ k ) } y k + 1 arg min { β ( x k + 1 , y , λ k ) } λ k + 1 = λ k β ( A x k + 1 + | y k + 1 | b ) . (5)

根据问题(2)的优化条件,有

{ 0 f ( x k + 1 ) A T λ k + β A T ( A x k + 1 + | y k | b ) 0 = g ( y k + 1 ) λ k sign ( y k + 1 ) + β ( A x k + 1 + | y k + 1 | b ) sign ( y k + 1 ) (6)

基于(6)和(5)中的第三个等式,得到

{ A T λ k + β A T ( A x k + 1 + | y k | b ) f ( x k + 1 ) g ( y k + 1 ) = λ k + 1 sign ( y k + 1 ) λ k + 1 = λ k β ( A x k + 1 + | y k + 1 | b ) (7)

在本文中,我们还做了以下假设:

假设1:设 f : R n R { + } 是一个适当的下半连续函数, g : R n R 是一个可微函数,并且 g 满足利普希茨连续,并且 L > 0 。假设 β σ > 2 L , σ [ 0 , 1 ] 使得 δ = ( β σ 2 L ) / 2 L 2 / β > 0

为了后续讨论,需要以下引理:

引理4:设 ( x * , y * , λ * ) β ( ω k + 1 ) 的一个临界点,并且 y * 中的每个元素均不为0。设 { ω k } k 0 = { ( x k , y k , λ k ) } k 0 为算法(5)生成的序列。假设假设1成立并且 { y k } 收敛到 y * 。存在一个N k > N ,则有

β ( ω k + 1 ) β ( ω k ) δ y k + 1 y k 2 . (8)

证明:基于增广拉格朗日函数 β ( ω ) 的定义,有

β ( x k + 1 , y k + 1 , λ k + 1 ) = β ( x k + 1 , y k + 1 , λ k ) + λ k λ k + 1 , A x k + 1 + | y k + 1 | b = β ( x k + 1 , y k + 1 , λ k ) + 1 β λ k λ k + 1 2 (9)

β ( x k + 1 , y k , λ k ) L β ( x k + 1 , y k + 1 , λ k ) = f ( x k + 1 ) + g ( y k ) λ k , A x k + 1 + | y k | b + β 2 A x k + 1 + | y k | b 2 { f ( x k + 1 ) + g ( y k + 1 ) λ k , A x k + 1 + | y k + 1 | b + β 2 A x k + 1 + | y k + 1 | b 2 } = g ( y k ) g ( y k + 1 ) + λ k , | y k + 1 | | y k | + β 2 A x k + 1 + | y k | b 2 β 2 A x k + 1 + | y k + 1 | b 2 . (10)

由于 g 满足 L > 0 的利普希兹连续,根据引理2和式(7)中的第二个等式,可得:

g ( y k ) g ( y k + 1 ) + λ k + 1 T sign ( y k + 1 ) ( y k y k + 1 ) L 2 y k y k + 1 2 . (11)

将(11)带入到(10)中可得:

β ( x k + 1 , y k , λ k ) L β ( x k + 1 , y k + 1 , λ k ) λ k + 1 sign ( y k + 1 ) , y k y k + 1 + β 2 A x k + 1 + | y k | b 2 β 2 A x k + 1 + | y k + 1 | b 2 λ k , | y k | | y k + 1 | L 2 y k y k + 1 2 . (12)

回忆

λ k + 1 = λ k β ( A x k + 1 + | y k + 1 | b ) ,

A x k + 1 + | y k | b = 1 β ( λ k λ k + 1 ) + ( | y k | | y k + 1 | ) .

然后

β 2 A x k + 1 + | y k | b 2 = β 2 1 β ( λ k λ k + 1 ) + ( | y k | | y k + 1 | ) 2 = 1 2 β λ k λ k + 1 2 + β 2 | y k | | y k + 1 | 2 + λ k λ k + 1 , | y k | | y k + 1 | (13)

组合(12)和(13),可得

β ( x k + 1 , y k , λ k ) L β ( x k + 1 , y k + 1 , λ k ) λ k + 1 sign ( y k + 1 ) , y k y k + 1 λ k , | y k | | y k + 1 | + β 2 | y k | | y k + 1 | 2 + λ k λ k + 1 , | y k | | y k + 1 | L 2 y k y k + 1 2 . (14)

λ k + 1 sign ( y k + 1 ) , y k y k + 1 λ k , | y k | | y k + 1 | + λ k λ k + 1 , | y k | | y k + 1 | = λ k + 1 , y k sign ( y k + 1 ) | y k + 1 | λ k , | y k | | y k + 1 | + λ k λ k + 1 , | y k | | y k + 1 | = λ k + 1 , y k sign ( y k + 1 ) λ k + 1 , | y k + 1 | λ k + 1 , | y k | + λ k + 1 , | y k + 1 | = λ k + 1 , y k sign ( y k + 1 ) λ k + 1 , | y k | = λ k + 1 , y k sign ( y k + 1 ) λ k + 1 , y k sign ( y k ) = λ k + 1 , y k ( sign ( y k + 1 ) sign ( y k ) ) . (15)

从式(15)中容易看出,存在一个N,当 k > N 时,根据引理3,可得:

λ k + 1 sign ( y k + 1 ) , y k y k + 1 λ k , | y k | | y k + 1 | + λ k λ k + 1 , | y k | | y k + 1 | = 0.

根据

| y k | | y k + 1 | 2 = σ k y k y k + 1 2 , σ k [ 0 , 1 ]

可得:

β ( x k + 1 , y k , λ k ) L β ( x k + 1 , y k + 1 , λ k ) β 2 | y k | | y k + 1 | 2 L 2 y k y k + 1 2 = β σ k 2 y k y k + 1 2 L 2 y k y k + 1 2 = β σ k L 2 y k y k + 1 2 . (16)

利用定义5和等式(7)当中的第二个等式,可得:

λ k + 1 sign ( y k + 1 ) λ k sign ( y k ) L y k + 1 y k . (17)

根据式(17),可以知道存在一个利普希茨常数L,使得:

λ k + 1 ± λ k L y k + 1 y k . (18)

组合(9)、(16)和(18)可得:

β ( x k + 1 , y k + 1 , λ k + 1 ) β ( x k + 1 , y k , λ k ) ( β σ k L 2 L 2 β ) y k y k + 1 2 β ( x k , y k , λ k ) ( β σ k L 2 L 2 β ) y k y k + 1 2 . .

其中,上述第二个不等式满足 x k + 1 β ( x , y k , λ k ) 中关于x的最小值,即

β ( x k + 1 , y k , λ k ) β ( x k , y k , λ k ) .

σ = inf { σ k } ,则

δ = β σ 2 L 2 L 2 β .

因此,引理4成立。

备注4由于 σ = inf { σ k } σ k ( 0 , 1 ] ,则说明 σ 0 。然而对于任意的k,都有 0 < σ k 1 ,这就意味着 σ = inf k 0 { σ k } = min k 0 { σ k } > 0 。因此,存在 ξ = min k 0 { σ k } 2 使得 σ > ξ > 0

备注5:由 δ > 0 ,根据引理3, β ( ω k ) 单调递减。

接下来,我们给出一些充分条件来保证算法(5)生成的序列 { ω k = ( x k , y k , λ k ) } 是有界的。

引理5:设 { ω k } = { ( x k , y k , λ k ) } 是算法(5)生成的序列,并假设

inf y { g ( y ) τ | g ( y ) | 2 } = : g ¯ > .

那么以下陈述是正确的。

(1) f是强制性的,即 lim inf | x | 2 + f ( x ) = +

(2) 存在常数 τ = 1 2 L

证明:根据引理4,可得:

β ( x k , y k , λ k ) β ( x 0 , y 0 , λ 0 ) .

然后,结合 λ k sign ( y k ) = g ( y k ) ,可得:

β ( x 0 , y 0 , λ 0 ) f ( x k ) + g ( y k ) λ k , ( A x k + | y k | b ) + β 2 A x k + | y k | b 2 = f ( x k ) + g ( y k ) 1 2 β λ k 2 + β 2 A x k + | y k | b 1 β λ k 2 = f ( x k ) + ( g ( y k ) 1 2 L g ( y k ) 2 ) + ( 1 2 L 1 2 β ) λ k 2 + β 2 A x k + | y k | b 1 β λ k 2 f ( x k ) + g ¯ + ( τ 1 2 β ) λ k 2 + β 2 A x k + | y k | b 1 β λ k 2 .

观察陈述(1)意味着 inf x f ( x ) > 。由 β > 2 L 得到 { x k } , { λ k } { β 2 A x k + | y k | b 1 β λ k 2 } 是有界的。因此, { y k } 是有界的,从而, { ω k } 是有界的。

引理6:设 { ω k } = { ( x k , y k , λ k ) } 是算法(5)生成的序列,且 { ω k } 是有界的。那么,

k = 0 + ω k + 1 ω k 2 < + . (19)

证明:为了证明(19)成立,考虑三种情况:

k = 0 y k + 1 y k 2 < + , k = 0 λ k + 1 λ k 2 < + , k = 0 x k + 1 x k 2 < + .

首先,证明 k = 0 y k + 1 y k 2 < + 。由于 { ω k } 是有界的,它至少有一个聚点。设 { ω * } { ω k } 的一个聚点, { ω k j } 是收敛到它的子序列,即 ω k j ω * 。由于f是下半连续的且g是连续的, β ( ) 是下半连续的,可得:

β ( ω * ) lim j + inf β ( ω k j ) .

由于 { β ( ω k j ) } 收敛,所以 { β ( ω k j ) } 有界。此外, { β ( ω k ) } 是收敛的,并且 { β ( ω k ) } { β ( ω * ) } 。根据式(8),可得:

δ y k + 1 y k 2 L β ( ω k ) β ( ω k + 1 ) . (20)

根据式(20),可得:

k = 0 n δ y k + 1 y k 2 L β ( ω 0 ) L β ( ω n + 1 ) L β ( ω 0 ) β ( ω * ) < + .

由于 δ > 0 ,有:

k = 0 y k + 1 y k 2 < + .

其次,证明 k = 0 λ k + 1 λ k 2 < + 。这显然来自于方程(18)。

最后,证明 k = 0 x k + 1 x k 2 < + 。回忆

λ k + 1 = λ k β ( A x k + 1 + | y k + 1 | b ) , λ k = λ k 1 β ( A x k + | y k | b ) .

那么

β ( A x k A x k + 1 ) = ( λ k + 1 λ k ) ( λ k λ k 1 ) β ( | y k | | y k + 1 | ) .

所以

β ( A x k A x k + 1 ) 2 = ( λ k + 1 λ k ) ( λ k λ k 1 ) β ( | y k | | y k + 1 | ) 2 3 ( λ k + 1 λ k 2 + λ k λ k 1 2 + β 2 | y k | | y k + 1 | 2 ) = 3 ( λ k + 1 λ k 2 + λ k λ k 1 2 + β 2 σ y k y k + 1 2 ) . (21)

根据 | A | 2 = λ max ( A T A ) ,有

β ( A x k A x k + 1 ) 2 = β 2 λ max x k + 1 x k 2 . (22)

然后,根据公式(21)和公式(22),可以看出

k = 0 x k + 1 x k 2 < + .

因此,引理6的结果成立。

备注4:如果 β ( ) 于是有界的,那么容易推 k = 0 + ω k + 1 ω k 2 < + 而无需保证 { ω k } 的有界性。

引理7:设 { ω k } = { ( x k , y k , λ k ) } 是算法(5)生成的序列,且 { ω k } 是有界的。定义

x k + 1 * = β A T ( | y k + 1 | | y k | ) + A T ( λ k λ k + 1 ) ; y k + 1 * = λ k λ k + 1 ; λ k + 1 * = 1 β ( λ k λ k + 1 ) .

则有

( x k + 1 * , y k + 1 * , λ k + 1 * ) β ( ω k + 1 ) .

此外,存在 ζ > 0 ,使得

d ( 0 , β ( ω k + 1 ) ) ζ y k y k + 1 .

证明:根据增广拉格朗日函数 β ( ) ,我们可知

x β ( ω k + 1 ) = f ( x k + 1 ) A T y k + 1 λ k + 1 + β A T y k + 1 ( x k + 1 T A T y k + 1 b ) , y β ( ω k + 1 ) = g ( y k + 1 ) x k + 1 T A T λ k + 1 + β ( x k + 1 T A T y k + 1 b ) , λ β ( ω k + 1 ) = ( x k + 1 T A T y k + 1 b ) .

下再结合(7),可得

β A T ( | y k + 1 | | y k | ) + A T ( λ k λ k + 1 ) x β ( ω k + 1 ) ; ( λ k λ k + 1 ) sign ( y k + 1 ) y β ( ω k + 1 ) ; 1 β ( λ k λ k + 1 ) λ β ( ω k + 1 ) .

因此,根据引理1,我们可知 ( x k + 1 * , y k + 1 * , λ k + 1 * ) β ( ω k + 1 ) 。除此之外,存在 ζ 1 , ζ 2 > 0 使得

( x k + 1 * , y k + 1 * , λ k + 1 * ) ζ 1 σ y k + 1 y k + ζ 2 λ k + 1 λ k .

连通过定义 ζ = ζ 1 σ + L ζ 2 ,再根据(18)可知

d ( 0 , β ( ω k + 1 ) ) ( x k + 1 * , y k + 1 * , λ k + 1 * ) ζ y k y k + 1 .

这就完成了此引理的证明。

引理8:设 { ω k } = { ( x k , y k , λ k ) } 是算法(5)生成的序列,且 { ω k } 是有界的。令 S ( ω 0 ) 表示其极限点的集合。那么:

(1) S ( ω 0 ) c r i t β

(2) β ( ) S ( ω 0 ) 上是有限的且为常数;

(3) S ( ω 0 ) 是一个非空连通的紧集,并且

lim k d ( ω k , S ( ω 0 ) ) = 0.

定理2:设 { ω k } = { ( x k , y k , λ k ) } 是算法(5)生成的序列,且 { ω k } 是有界的。假设fg是半代数函数,那么 ω k 具有有限长度,即

k = 0 + ω k + 1 ω k < +

因此, ω k 收敛到 β ( ) 的一个临界点。

证明:从引理8可知,对于所有 ω * S ( ω 0 ) ,有 β ( ω k ) β ( ω * ) ,考虑两种情况:

(1) 如果存在一个整数 k 0 ,使得 β ( ω k 0 ) = β ( ω * ) 。根据方程(8)以及备注3,对于任意 k > k 0 ,有

δ y k + 1 y k 2 L β ( ω k ) L β ( ω k + 1 ) L β ( ω k 0 ) β ( ω * ) = 0

对于任意 k > k 0 ,有 y k + 1 = y k 。结合引理5的证明,对于任意 k > k 0 + 1 ,有 ω k + 1 = ω k ,因此定理2成立。

(2) 假设对于所有k都有 β ( ω k ) > β ( ω * ) 。由于 d ( ω k , S ( ω 0 ) ) 0 ,对于任意 ε > 0 ,存在 k 1 > 0 ,使得对于任何 k > k 1 ,有 d ( ω k , S ( ω 0 ) ) < ε 。再次,由于 β ( ω k ) β ( ω * ) ,对于任意 η > 0 ,存在 k 2 > 0 ,使得对于任意 k > k 2 ,有 β ( ω k ) < β ( ω * ) + η 。因此,对于所有 ε , η > 0 ,当 k > k ˜ = max { k 1 , k 2 } 时,

d ( ω k , S ( ω 0 ) ) < ε , β ( ω * ) < β ( ω k ) < β ( ω * ) + η

由于 S ( ω 0 ) 是一个非空紧集,并且 β ( ) S ( ω 0 ) 上是常数,应用定义4中 Ω = S ( ω 0 ) ,推导出对于任意 k > k ˜ ,有

φ ( β ( ω k ) β ( ω * ) ) d ( 0 , β ( ω k ) ) 1 .

由于

β ( ω k ) β ( ω k + 1 ) = ( β ( ω k ) β ( ω * ) ) ( β ( ω k + 1 ) β ( ω * ) ) .

根据 φ 的凹性,可得

φ ( β ( ω k ) β ( ω * ) ) φ ( β ( ω k + 1 ) β ( ω * ) ) φ ( β ( ω k ) β ( ω * ) ) ( β ( ω k + 1 ) β ( ω * ) ) .

关联 d ( 0 , β ( ω k ) ) ζ y k y k 1 , φ ( β ( ω k ) β ( ω * ) ) > 0 ,得到

β ( ω k ) β ( ω k + 1 ) φ ( β ( ω k ) β ( ω * ) ) φ ( β ( ω k + 1 ) β ( ω * ) ) φ ( β ( ω k ) β ( ω * ) ) ζ y k y k 1 [ φ ( β ( ω k ) β ( ω * ) ) φ ( β ( ω k + 1 ) β ( ω * ) ) ] . (23)

Δ p , q = φ ( β ( ω p ) β ( ω * ) ) φ ( β ( ω q ) β ( ω * ) )

结合引理3和不等式(23),得到对于所有 k > k ˜

y k + 1 y k ζ δ Δ k , k + 1 y k y k 1 1 2 ( y k y k 1 + ζ δ Δ k , k + 1 ) . (24)

从方程(24)可以得出

k = k ˜ + 1 m y k + 1 y k 1 2 ( k = k ˜ + 1 m y k y k 1 + ζ δ Δ k ˜ + 1 , m + 1 ) . (25)

注意到 φ ( β ( ω m + 1 ) β ( ω * ) ) > 0 ,重写(25),并令 m + ,有

k = k ˜ + 1 + y k + 1 y k y k ˜ + 1 y k ˜ + 1 + ζ δ φ ( β ( ω k ˜ + 1 ) β ( ω * ) ) . (26)

这意味着

k = 0 + y k + 1 y k < +

从方程(18),知道

k = 0 + λ k + 1 λ k < +

另一方面,从方程(21)和方程(22)可以得出

x k + 1 x k 3 β 2 λ max ( A T A ) ( λ k + 1 λ k 2 + λ k λ k 1 2 + β 2 | y k | | y k + 1 | 2 ) 1 / 2 3 β 2 λ max ( A T A ) ( λ k + 1 λ k + λ k λ k 1 + β σ y k y k + 1 ) .

{ ω k } 是一个柯西序列(参见Botel等[18]的第482页的一个简单证明)。因此,根据备注3可知它是收敛的。

4. 数值实验分析

1二次规划(Quadratic Programming, QP)问题:二次规划(QP)是一个数学优化问题,其目标是求解满足一组线性或不等式约束的二次函数的最小值或最大值。在优化问题中,QP问题是一个非常重要的问题,因为它广泛应用于金融、工程、计算机视觉、机器学习等领域。QP问题的约束通常是线性约束,将其扩展到非线性约束问题,并通过以下例子来说明

min ( x 1 ) 2 + ( y 3 ) 2 s .t . 2 x + | y | 4 = 0 7 x 5 , 8 y 1.

上述问题的增广拉格朗日函数为

β ( x , y , λ ) = f ( x ) + g ( y ) λ , 2 x + | y | 4 + β 2 2 x + | y | 4 2 .

在此实验中,每个问题的子问题根据(5)进行求解。然后,列出了(5)的每次迭代过程中的子x问题和y子问题:

x子问题为

x k + 1 = 2 [ λ k β ( 2 | y k | 4 ) ] + 2 2 + 4 β .

y子问题为

y k + 1 = sign ( y k ) [ λ k β ( 2 x k + 1 4 ) ] + 6 2 + β .

(a) β = 0.5 (b) β = 1

Figure 1. The relationship between function value and the number of iterations

1. 函数值与迭代次数的关系

Table 1. Iteration results with different initial values

1. 不同初始值下的迭代结果

x

1

−2

−5

7

y

1

−2

−5

−1

(x*, y*)

(1.5, 1.0)

(1.5, 1.0)

(1.5, 1.0)

(1.5, 1.0)

β

1

1

1

1

IT

49

48

47

48

CPU

5.691

6.238

6.274

5.346

β

0.5

0.5

0.5

0.5

IT

49

48

47

48

CPU

5.657

5.561

6.120

4.367

在计算中,令 β ( x , y , λ ) 中的 λ = 1.75 ,分别测试了四组 ( x , y ) 的初始值:S1: ( x , y ) = ( 1 , 1 ) S2: ( x , y ) = ( 2 , 2 ) S3: ( x , y ) = ( 5 , 5 ) S4: ( x , y ) = ( 7 , 1 ) ,分别取 β = 0.5 β = 1 。在这种情况下,图1表1中显示了一些数值结果。从图1中可以看出,随着迭代次数的增加,函数值逐渐减少,最终达到平稳状态。通过表1可以看出,不同初始值达到最优解的迭代次数是不同的。在xy的定义域下,发现 β 的变化不会影响最优解的变化,且最优解都是 ( x * , y * ) = ( 1.5 , 1.0 ) 。不出所料,随着参数 β 的增加,CPU时间变长。

2矩阵 A R n × n ,向量 b R n 。考虑问题(2)具体的函数形式为 f ( x ) = x 1 2 , g ( y ) = y 1 2 ,即

min x 1 2 + y 1 2 , s .t . A x + | y | b = 0 , (27)

A = [ a i j ] = { 10 , i = j . 7 , j i = 1. 2 , i j = 1. i , j = ( 1 , 2 , , n ) , b = ( 0 , 0 , , 0 , 0 ) .

上述问题的增广拉格朗日函数为

β ( x , y , λ ) = x 1 2 + y 1 2 λ , A x + | y | b + β 2 A x + | y | b 2 .

在此实验中,每个问题的子问题根据(5)进行求解。在求解过程中,我们引入变量 z = | y | ,则问题(27)可改写为

min { x 1 2 + y 1 2 | A x + z b = 0 , z = | y | } .

对应的子问题为:

x子问题为

x k + 1 = ( A A + β I ) 1 ( A ( b z k ) + λ k ) .

y子问题为

y k + 1 = sign ( y k ) max ( | z k | 1 β , 0 ) .

z相当于约束投影,其子问题为

z k + 1 = y k + 1 + ( b + A x k + 1 ) .

(a) n = 1000 (b) n = 10,000

Figure 2. The relationship between ( h ( w k ) h * ) / h * and the number of iterations

2. ( h ( w k ) h * ) / h * 与迭代次数的关系

在实验中,设定 β = 1 ,初始向量为: x 0 = ( 1 , 1 , , 1 , 1 ) , y 0 = ( 1 , 1 , , 1 , 1 ) , λ 0 = ( 1 , 1 , , 1 , 1 ) 。在这种情况下,我们在图2中展示了当n = 1000和n = 10,000时的数值结果。很容易发现,当n = 1000时,在迭代562次后得到最优解,而当n = 10,000时,在迭代565次后得到最优解。虽然维数增加迭代次数也增多,但维数的变化对达到最优解的迭代次数变化的影响不是很显著。通过图2,我们可以看到横坐标和纵坐标反映了迭代次数与 ( h ( w k ) h * ) / h * 的关系( h * 代表函数的最优解)。随着迭代次数的增加, ( h ( w k ) h * ) / h * 的值是递减的,并最终保持为平稳状态。这就表明 h ( w k ) 是非递增的,并最终收敛到 h *

5. 结论

本文通过使用KL不等式,研究了带有绝对值形式非线性约束的最小化问题的ADMM,并证明了ADMM生成的迭代子序列收敛到问题的一个关键点。更重要的是,通过数值例子,进一步验证了本文设计的ADMM在带有绝对值形式的非线性约束的最小化问题中是实用的。值得注意的是,文章仅考虑了这种情况下y的每个元素都非零的情况,而包含零元素的y的另一种情况则有待进一步研究。

基金项目

云南师范大学研究生科研训练基金项目(YJSJJ23-B69)。

NOTES

*第一作者。

#通讯作者。

参考文献

[1] Gabay, D. and Mercier, B. (1976) A Dual Algorithm for the Solution of Nonlinear Variational Problems via Finite Element Approximation. Computers & Mathematics with Applications, 2, 17-40.
https://doi.org/10.1016/0898-1221(76)90003-1
[2] Yuan, M. and Lin, Y. (2005) Model Selection and Estimation in Regression with Grouped Variables. Journal of the Royal Statistical Society Series B: Statistical Methodology, 68, 49-67.
https://doi.org/10.1111/j.1467-9868.2005.00532.x
[3] Han, D. (2022) A Survey on Some Recent Developments of Alternating Direction Method of Multipliers. Journal of the Operations Research Society of China, 10, 1-52.
https://doi.org/10.1007/s40305-021-00368-3
[4] Eckstein, J. and Bertsekas, D.P. (1992) On the Douglas-Rachford Splitting Method and the Proximal Point Algorithm for Maximal Monotone Operators. Mathematical Programming, 55, 293-318.
https://doi.org/10.1007/bf01581204
[5] Boley, D. (2013) Local Linear Convergence of the Alternating Direction Method of Multipliers on Quadratic or Linear Programs. SIAM Journal on Optimization, 23, 2183-2207.
https://doi.org/10.1137/120878951
[6] He, B. and Yuan, X. (2012) On the O(1/n) Convergence Rate of the Douglas-Rachford Alternating Direction Method. SIAM Journal on Numerical Analysis, 50, 700-709.
https://doi.org/10.1137/110836936
[7] Davis, D. and Yin, W. (2016) Convergence Rate Analysis of Several Splitting Schemes. In: Glowinski, R., Osher, S. and Yin, W., Eds., Splitting Methods in Communication, Imaging, Science, and Engineering, Springer, 115-163.
https://doi.org/10.1007/978-3-319-41589-5_4
[8] He, B. and Yuan, X. (2014) On Non-Ergodic Convergence Rate of Douglas-Rachford Alternating Direction Method of Multipliers. Numerische Mathematik, 130, 567-577.
https://doi.org/10.1007/s00211-014-0673-6
[9] He, B., Liao, L., Han, D. and Yang, H. (2002) A New Inexact Alternating Directions Method for Monotone Variational Inequalities. Mathematical Programming, 92, 103-118.
https://doi.org/10.1007/s101070100280
[10] Goldstein, T., O'Donoghue, B., Setzer, S. and Baraniuk, R. (2014) Fast Alternating Direction Optimization Methods. SIAM Journal on Imaging Sciences, 7, 1588-1623.
https://doi.org/10.1137/120896219
[11] Giesen, J. and Laue, S. (2016) Distributed Convex Optimization with Many Convex Constraints. arXiv: 1610.02967
[12] Wang, F., Cao, W. and Xu, Z. (2018) Convergence of Multi-Block Bregman ADMM for Nonconvex Composite Problems. Science China Information Sciences, 61, Article No. 122101.
https://doi.org/10.1007/s11432-017-9367-6
[13] Zhang, J. and Luo, Z. (2020) A Proximal Alternating Direction Method of Multiplier for Linearly Constrained Nonconvex Minimization. SIAM Journal on Optimization, 30, 2272-2302.
https://doi.org/10.1137/19m1242276
[14] Guo, K., Han, D.R. and Wu, T.T. (2016) Convergence of Alternating Direction Method for Minimizing Sum of Two Nonconvex Functions with Linear Constraints. International Journal of Computer Mathematics, 94, 1653-1669.
https://doi.org/10.1080/00207160.2016.1227432
[15] Mordukhovich, B.S. (2006) Variational Analysis and Generalized Differentiation Vol. I: Basic Theory, Vol. II: Applications. Springer.
[16] Yang, W.H. and Han, D. (2016) Linear Convergence of the Alternating Direction Method of Multipliers for a Class of Convex Optimization Problems. SIAM Journal on Numerical Analysis, 54, 625-640.
https://doi.org/10.1137/140974237
[17] Attouch, H., Bolte, J., Redont, P. and Soubeyran, A. (2010) Proximal Alternating Minimization and Projection Methods for Nonconvex Problems: An Approach Based on the Kurdyka-Łojasiewicz Inequality. Mathematics of Operations Research, 35, 438-457.
https://doi.org/10.1287/moor.1100.0449
[18] Bolte, J., Sabach, S. and Teboulle, M. (2013) Proximal Alternating Linearized Minimization for Nonconvex and Nonsmooth Problems. Mathematical Programming, 146, 459-494.
https://doi.org/10.1007/s10107-013-0701-9
[19] Nesterov, Y. (2013) Introductory Lectures on Convex Optimization: A Basic Course. Springer Science & Business Media.
[20] Liu, H., Hu, J., Li, Y. and Wen, Z. (2020) Computational Methods for Optimization. Higher Education Press. (In Chinese)

Baidu
map