2. 将鞍点问题复合最小化问题
先给出关于问题(1)中的假设和Moreau 近端映射的定义。
假设1 (a)
。
(b)
是一个连续可微函数(
),并且
关于y是凹函数。另外,
,使得
,有
(c)
关于y是
-强拟凹连续可微函数,且关于y的梯度是
-Lipschitz连续的,即存在一个常数
,使得对于
,
,(
)。
定义1
[8]
设函数
是真下半连续函数,对
,则关于函数
的Moreau近端映射为
.
由于
关于y是
(
)-强拟凹函数,则
关于y是
-强拟凸函
数。根据文献
[9]
中的定理1可以得到
是单值的,
即
是有意义的。现在定义
.
则问题(1)变为
. (5)
我们继续分析函数
与
的性质。下面的引理是关于强拟凸函数的一个性质,将会用来证明函数
的连续性。
引理1 设
是
-强拟凸函数(
),并且是连续可微的。若
,且
,则有
.
证明:由于
是C上的
-强拟凸函数,根据强拟凸函数的定义有:
.
因为
,且
,则有
,
,
,
.
由于
是连续可微函数,让上面不等式的两边的
,则有
即
.
引理2 映射
是
-Lipschitz连续的,即
.
证明:因为
,
,则
即
。由于
关于y是
-强拟凸的,根据引理1有
. (6)
由于
,根据一阶最优性条件有
.
根据上式可以得到
,再结合(6)式有
.
我们可以得到文献
[6]
命题1相同的结论:
是连续函数(
)函数,且梯度
是
-Lipschitz连续的,其中
。
根据上面得到的结论,复合最小化问题(5)可以用Bregman近端梯度法求解,即
.
但是该算法困难在于寻找
,并且在迭代时,必须要使用内循环计算,从而导致算法变得非常复杂,故在这种情况下将我们提出算法(4)看成近似Bregman近端梯度法,不用求解
,直接用算法(4)中的y-步中的
或者
代替
,而x-步就是上述算法。其中,算法(4)中的y-步的步长设为
,对于x-步的步长
的选择将在下面的定理1中体现。
3. 收敛性分析
将鞍点问题(1)表述为复合最小化问题(5),分析Bregman近端梯度上升下降法(4)的收敛性,设
是由算法(4)产生的序列,本节我们得到
收敛到函数
的临界点:即
。另外得到
,其中
是鞍点问题(1)的内部极大化问题的解。由于复合最小化问题(5)的目标函数是非凸非光滑的,缺少下降性质,借鉴文献
[6]
的方法引入扰动类梯度下降序列,得到算法的次收敛性。
定义2
[6]
设
是真下半连续函数,若序列
满足下面的三个条件:
(a) 扰动充分下降性质:存在一个常数
使得对于任意的
有
.
(b) 迭代间隙上的扰动次梯度下界:存在一个常数
使得对于任意的
,这里存在
,且
满足
。
(c) 设
是一个子序列且收敛到
,则
。
则
是关于
的扰动类梯度下降序列。
下面给出在分析算法收敛性时的一些假设。
假设2 (a) Bregman函数
是
-强凸函数并且是连续可微函数,即
是
-光滑函数(
);
(b) Bregman函数
是1-强凸函数,并且是连续可微函数,即
是
-光滑函数;
(c)
关于y是
-光滑自适应的,即
,存在
,有
;
(d) 算法
的x-步迭代过程是有意义的,即
.
在分析收敛性之前我们先给出一个与文献
[10]
中的引理2.6类似的结论,即内部最大化问题函数差值不等式。
引理3 设
,
关于y 是
-光滑自适应的,则
. (7)
证明:近端梯度上升下降算法中的y-步迭代过程
. (8)
是解决问题(1)的内部最大问题的步骤,该最大化问题可以表述为极小化问题
.
根据Moreau近端映射的定义,(8)式变为
由于
关于y是常数,则有
.
将上面等式中的
变为Bregman距离就是本文提出的算法的y-步迭代过程,即
.
由于
关于y是常数,则有
. (9)
设
,
.
对于(9)式,根据一阶最优性条件有
.
设
,则有
.
,根据法锥的定义有
,
,
. (10)
因为
是凸函数,且
,则有
, (11)
结合(10)和(11)两个不等式则有
.
(12)
由于
关于y 是
-光滑自适应的,则有
,
, (13)
结合(12)和(13)不等式就有
,那么
再利用Bregman距离三点恒等式则有
,
因为
关于y是凹函数,则
,
.
通过上面引理3的结论,得到近端梯度上升迭代点之间的不等式关系,即下面的引理4。
引理4 (
与
之间的关系)假设Bregman函数
满足假设2(a),令
,则对任意的
有
(14)
(15)
(16)
(17)
证明:
是解决问题(1)内部最大化的近端梯度上升步骤,将其表述为下列最小化问题:
,则根据假设1(d)可知
是
-强拟凸函数,其唯一极小元为
,根据引理1有:
. (18)
另外,根据假设1(d)和下降引理
[11]
有
. (19)
结合(18)和(19)两个不等式,则有
,
.
因为Bregman函数
是
-强凸函数并且是连续可微函数
-光滑的,则会有以下结论:
和
则引理3中的不等式(7)放缩为
由于
,令
,则有
故(14)和(15)得证。在不等式
中,令
将其应用到(14)和(15)两个不等式,就会得到(16)和(17)两个不等式。
这是对于算法的y-步的分析,我们选取满足假设2(a)的Bregman函数
得到文献
[6]
中引理6同样的结论。关于x步的次梯度有界性和利用x步得到函数值差距的结论也会得到与文献
[6]
类似的结论。
引理5
[6]
(给出函数
的光滑自适应性质)设
,且
,则
是1-光滑自适应的,即
.
引理6
[6]
(x步函数值差值)设
是由近端梯度算法产生的序列,则
,有
,
其中
。
引理7
[6]
(x步的次梯度有界性)设
是由近端梯度算法产生的序列,则存在M大于0使得
,
,且满足不等式
,其中
。
令扰动序列
:
(
时),
(
时),其中
为大于0的实数。引入的扰动序列
满足扰动类梯度下降序列的3个条件,其证明方法与文献
[6]
相同。故可以得到算法的次收敛性。若问题(1)的目标函数是半代数函数,则得到算法的全局收敛性。下面先给出定理1,定理1给出算法(4) x-步的步长
的选择。并且在恰当的步长选择下,得到算法的收敛性,即定理2。
定理1 设由算法(4)产生的序列
有界,并且设
,其中
为算法(4)中x-步的算法步长。
(
时),
(
时),则
,
使得
,
,
.
定理2 设由算法
产生的序列
有界,假设
,则下面两个结论成立:
(1) 设
是序列
的聚点集合,则
是一个非空紧集;且
;
;
在
上是有限的常数;设
是
的子序列,并且
收敛到
,则
的子序列
收敛到
。
(2) 另外再假设函数
是半代数函数,则有
,并且
收敛到点
;
收敛到
。
定理1,定理2的证明过程参考文献
[6]
的引理4和定理1。