非光滑非凸–强拟凹鞍点问题的Bregman近端梯度算法

期刊菜单

非光滑非凸–强拟凹鞍点问题的Bregman近端梯度算法
Bregman Proximal Gradient Algorithm for Nonsmooth Nonconvex-Strongly Quasi-Concave Saddle Point Problems

DOI: 10.12677/aam.2025.141043, PDF, HTML, XML, 科研立项经费支持
作者: 张艳, 李小兵：重庆交通大学数学与统计学院，重庆
关键词: 近端梯度上升下降法；Bregman距离；非光滑非凸–强拟凹鞍点问题；Proximal Gradient Ascent-Descent Method； Bregman Distance； Nonsmooth Nonconvex-Strongly Quasi-Concave Saddle Point Problems

摘要: 针对非光滑非凸–强拟凹鞍点问题，本文利用Bregman距离建立了Bregman近端梯度上升下降算法。对Bregman近端梯度上升迭代算法中，得到内部最大化问题函数差值不等式，从而得到近端梯度上升迭代点之间的不等式关系。对于非凸非光滑问题，引入扰动类梯度下降序列，得到算法的次收敛性，当目标函数为半代数时，得到算法的全局收敛性。

Abstract: For the nonsmooth nonconvex-strongly quasi-concave saddle point problems, this paper establishes the Bregman proximal gradient ascent-descent algorithm by using the Bregman distance. In the Bregman proximal gradient ascent iterative algorithm, the difference inequality of the internal maximization problem function is obtained, and thus the inequality relationship between the proxi-mal gradient ascent iterative points is derived. For nonconvex and nonsmooth problems, a perturbed gradient-like descent sequence is introduced to obtain the sub-convergence of the algorithm. When the objective function is semi-algebraic, the global convergence of the algorithm is obtained.

文章引用：张艳, 李小兵. 非光滑非凸–强拟凹鞍点问题的Bregman近端梯度算法[J]. 应用数学进展, 2025, 14(1): 442-452. https://doi.org/10.12677/aam.2025.141043

1. 引言

在现代科学与工程的众多领域里，优化问题无处不在。无论是经济系统中的资源分配，还是机器学习中的模型训练；不管是工程控制中的参数调节，亦或是博弈论中的策略选择，优化理念贯穿于其中。传统的凸优化问题因其良好性质已得到广泛且深入的研究。但现实世界复杂多样，很多实际问题无法简单归为凸优化问题。例如，在机器学习领域，生成对抗网络(GANs) [1]里生成器和判别器之间的博弈就呈现出非凸非光滑的极大极小问题特征；在经济学中，企业间竞争策略的制定也存在类似情况。并且在鲁棒优化[2]、图像处理[3]、信号处理[4]等更多领域，非凸非光滑的极大极小问题正亟待深入探索与有效解决。近几年对于非凸非光滑的极大极小问题备受学者们的关注[5]-[7]。

本文将考虑下面的鞍点问题：

$\min_{x \in ℝ^{n}} \max_{y \in ℝ^{m}} {F (x, y) = f (x) + c (x, y) - g (y)}$ (1)

其中 $f : ℝ^{n} \to (- \infty, + \infty)$ 是真下半连续函数， $c : ℝ^{n} \times ℝ^{m} \to ℝ$ 是一个连续可微函数( $C^{1}$ )， $g : ℝ^{m} \to (- \infty, + \infty)$ 是一个真凸下半连续函数， $ℝ^{n}, ℝ^{m}$ 分别表示为n维，m维实向量空间。

当 $\forall x \in ℝ^{n}, c (x, y) - g (y)$ 关于y是 $σ_{1}$ -强凹函数( $σ_{1} > 0$ )时，Cohen和Teboulle [6]提出近端梯度上升下降法(PGDA)求解问题(1)，即

$\begin{array}{l} y_{k + 1} = {prox}_{β g} (y_{k} + β \nabla_{y} c (x_{k}, y_{k})) \\ x_{k + 1} = {prox}_{α f} (x_{k} - α \nabla_{x} c (x_{k}, w_{k})) \end{array}$ (2)

当 $w_{k} = y_{k}$ 时，为平行近端梯度上升下降法(PPGDA)；当 $w_{k} = y_{k + 1}$ 时，为交替近端梯度上升下降法(APGDA)。Cohen和Teboulle [6]还提出了Bregman近端梯度下降上升法(BGDA)：

$\begin{array}{l} y_{k + 1} = \underset{y \in ℝ^{m}}{\arg \max} {〈 \nabla_{y} c (x_{k}, y_{k}), y 〉 - g (y) - \frac{1}{2 β} {‖ y - y_{k} ‖}^{2}} \\ x_{k + 1} \in \underset{x \in ℝ^{n}}{\arg \min} {f (x) + 〈 \nabla_{x} c (x_{k}, w_{k}), x 〉 + \frac{1}{α} D_{h} (x, x_{k})} \end{array}$ (3)

当 $w_{k} = y_{k}$ 时，是平行Bregman近端梯度下降上升法(PBGDA)；当 $w_{k} = y_{k + 1}$ 时，为交替近端梯度下降上升法(ABGDA)。

本文对函数 $c (x, y) - g (y)$ 的凹性条件做了改变，将其凹性条件减弱，变为强拟凹，即 $\forall x \in ℝ^{n}, c (x, y) - g (y)$ 关于y是 $σ_{1}$ -强拟凹函数( $σ_{1} > 0$ )。

在实际的各类现实问题情境中，非光滑非凸–强拟凸极小极大问题的出现频率相对更高。例如，经济学领域中的生产与成本优化问题、资源分配与福利经济学问题；博弈论领域中的非合作博弈的均衡求解；机器学习领域中的深度学习模型的训练优化、强化学习中的策略优化等等。

受算法(3)的启发，对于y-步迭代过程，我们将y-步中的 ${‖ y - y_{k} ‖}^{2}$ 部分同样用Bregman距离代替，即

$\begin{array}{l} y_{k + 1} = \underset{y \in ℝ^{m}}{\arg \max} {〈 \nabla_{y} c (x_{k}, y_{k}), y 〉 - g (y) - \frac{1}{2 β} D_{h_{1}} (y, y_{k})} \\ x_{k + 1} \in \underset{x \in ℝ^{n}}{\arg \min} {f (x) + 〈 \nabla_{x} c (x_{k}, w_{k}), x 〉 + \frac{1}{α} D_{h_{2}} (x, x_{k})} \end{array}$ (4)

在我们的算法中，y-步迭代的正则部分( ${‖ y - y_{k} ‖}^{2}$ )也为Bregman距离，当Bregman距离为欧式空间的距离时，即为算法(3)。算法(3)是算法(4)的特殊情况，故算法(4)更有意义。对于算法的收敛性分析本文借鉴Cohen和Teboulle [6]的方法引入扰动类梯度下降序列，得到算法的次收敛性，对于目标函数是半代数函数时，得到算法的全局的收敛性。

2. 将鞍点问题复合最小化问题

先给出关于问题(1)中的假设和Moreau 近端映射的定义。

假设1 (a) $\inf_{x \in ℝ^{n}} \max_{y \in ℝ^{m}} F (x, y) > - \infty$ 。

(b) $c : ℝ^{n} \times ℝ^{m} \to ℝ$ 是一个连续可微函数( $C^{1}$ )，并且 $c (x, y)$ 关于y是凹函数。另外， $\exists L_{x x}, L_{x y}, L_{y y}, L_{y x} > 0$ ，使得 $\forall \bar{x}, x \in ℝ^{n}, \forall \bar{y}, y \in ℝ^{m}$ ，有

$‖ \nabla_{x} c (x, y) - \nabla_{x} c (x, \bar{y}) ‖ \leq L_{x y} ‖ y - \bar{y} ‖$

$‖ \nabla_{x} c (x, y) - \nabla_{x} c (\bar{x}, y) ‖ \leq L_{x x} ‖ x - \bar{x} ‖$

$‖ \nabla_{y} c (x, y) - \nabla_{y} c (\bar{x}, y) ‖ \leq L_{y x} ‖ x - \bar{x} ‖$

$‖ \nabla_{y} c (x, y) - \nabla_{y} c (x, \bar{y}) ‖ \leq L_{y y} ‖ y - \bar{y} ‖$

(c) $\forall x \in ℝ^{n}, c (x, y) - g (y)$ 关于y是 $σ_{1}$ -强拟凹连续可微函数，且关于y的梯度是 $L_{1}$ -Lipschitz连续的，即存在一个常数 $L_{1} > 0$ ，使得对于 $\forall y, \bar{y} \in ℝ^{m}$ ， $‖ c (x, y) - g (y) - (c (x, \bar{y}) - g (\bar{y})) ‖ \leq L_{1} ‖ y - \bar{y} ‖$ ， ( $σ_{1} \in (L_{1}, 2 L_{1}]$ )。

定义1 [8] 设函数 $φ : ℝ^{d} \to (- \infty, \infty]$ 是真下半连续函数，对 $\forall t > 0$ ，则关于函数 $φ$ 的Moreau近端映射为

${prox}_{t φ} (z) : = \underset{x \in ℝ^{d}}{\arg \min} {φ (x) - \frac{1}{2 t} {‖ x - z ‖}^{2}}$ .

由于 $\forall x \in ℝ^{n}, c (x, y) - g (y)$ 关于y是 $σ_{1}$ ( $σ_{1} > 0$ )-强拟凹函数，则 $g (y) - c (x, y)$ 关于y是 $σ_{1}$ -强拟凸函

数。根据文献[9]中的定理1可以得到 $y^{*} (x) : = \underset{y \in ℝ^{m}}{\arg \max} {c (x, y) - g (y)} = \underset{y \in ℝ^{m}}{\arg \min} {g (y) - c (x, y)}$ 是单值的，

即 $y^{*} (x) : ℝ^{n} \to ℝ^{m}$ 是有意义的。现在定义 $ϕ : ℝ^{n} \to ℝ$

$ϕ (x) : = \max {c (x, y) - g (y)} = c (x, y^{*} (x)) - g (y^{*} (x))$ .

则问题(1)变为

$\min_{x \in ℝ^{n}} {Θ (x) : = f (x) + ϕ (x)}$ . (5)

我们继续分析函数 $y^{*}$ 与 $ϕ$ 的性质。下面的引理是关于强拟凸函数的一个性质，将会用来证明函数 $y^{*}$ 的连续性。

引理1 设 $ψ : ℝ^{d} \to ℝ$ 是 $σ$ -强拟凸函数( $σ > 0$ )，并且是连续可微的。若 $\forall x_{1}, x_{2} \in ℝ^{d}$ ，且 $ψ (x_{1}) \leq ψ (x_{2})$ ，则有

$〈 \nabla ψ (x_{2}), x_{2} - x_{1} 〉 \geq \frac{σ}{2} ‖ x_{2} - x_{1} ‖$ .

证明：由于 $ψ$ 是C上的 $σ$ -强拟凸函数，根据强拟凸函数的定义有：

$ψ (λ x_{1} + (1 - λ) x_{2}) \leq \max {ψ (x_{1}), ψ (x_{2})} - λ (1 - λ) \frac{σ}{2} {‖ x_{1} - x_{2} ‖}^{2}, \forall λ \in (0, 1)$ .

因为 $\forall x_{1}, x_{2} \in C$ ，且 $ψ (x_{1}) \leq ψ (x_{2})$ ，则有

$ψ (λ x_{1} + (1 - λ) x_{2}) \leq ψ (x_{2}) - λ (1 - λ) \frac{σ}{2} {‖ x_{1} - x_{2} ‖}^{2}$ ,

$ψ (λ x_{1} + (1 - λ) x_{2}) - ψ (x_{2}) \leq - λ (1 - λ) \frac{σ}{2} {‖ x_{1} - x_{2} ‖}^{2}$ ,

$\frac{ψ (λ x_{1} + (1 - λ) x_{2}) - ψ (x_{2})}{λ} \leq - (1 - λ) \frac{σ}{2} {‖ x_{1} - x_{2} ‖}^{2}$ ,

$\frac{ψ (x_{2} + λ (x_{1} - x_{2})) - ψ (x_{2})}{λ} \leq - (1 - λ) \frac{σ}{2} {‖ x_{1} - x_{2} ‖}^{2}$ .

由于 $ψ$ 是连续可微函数，让上面不等式的两边的 $λ \to 0$ ，则有

$〈 \nabla ψ (x_{2}), x_{1} - x_{2} 〉 \leq - \frac{σ}{2} ‖ x_{1} - x_{2} ‖$

即

$\frac{σ}{2} ‖ x_{2} - x_{1} ‖ \leq 〈 \nabla ψ (x_{2}), x_{2} - x_{1} 〉$ .

引理2 映射 $y^{*} : ℝ^{n} \to ℝ^{m}$ 是 $\frac{2 L_{y x}}{σ_{1}}$ -Lipschitz连续的，即

$‖ y^{*} (x) - y^{*} (\bar{x}) ‖ \leq \frac{2 L_{y x}}{σ_{1}} ‖ x - \bar{x} ‖, \forall x, \bar{x} \in ℝ^{n}$ .

证明：因为 $\forall x \in ℝ^{n}$ ， $y^{*} (x) : = \underset{y \in ℝ^{m}}{\arg \max} {c (x, y) - g (y)}$ ，则

$\forall \bar{x} \in ℝ^{n}, c (x, y^{*} (x)) - g (y^{*} (x)) \geq c (x, y^{*} (\bar{x})) - g (y^{*} (\bar{x}))$

即 $\forall \bar{x} \in ℝ^{n}, g (y^{*} (x)) - c (x, y^{*} (x)) \leq g (y^{*} (\bar{x})) - c (x, y^{*} (\bar{x}))$ 。由于 $g (y) - c (x, y)$ 关于y是 $σ_{1}$ -强拟凸的，根据引理1有

$\frac{σ_{1}}{2} {‖ y^{*} (\bar{x}) - y^{*} (x) ‖}^{2} \leq 〈 \partial g (y^{*} (\bar{x})) - \nabla_{y} c (x, y^{*} (\bar{x})), y^{*} (\bar{x}) - y^{*} (x) 〉$ . (6)

由于 $y^{*} (x) : = \underset{y \in ℝ^{m}}{\arg \max} {c (x, y) - g (y)}$ ，根据一阶最优性条件有

$0 \in \nabla_{y} c (x, y^{*} (x)) - \partial g (y^{*} (x)) \Rightarrow \nabla_{y} c (x, y^{*} (x)) \in \partial g (y^{*} (x))$ .

根据上式可以得到 $\nabla_{y} c (\bar{x}, y^{*} (\bar{x})) \in \partial g (y^{*} (\bar{x}))$ ，再结合(6)式有

$\begin{matrix} \frac{σ_{1}}{2} {‖ y^{*} (\bar{x}) - y^{*} (x) ‖}^{2} \leq 〈 \nabla_{y} c (\bar{x}, y^{*} (\bar{x})) - \nabla_{y} c (x, y^{*} (\bar{x})), y^{*} (\bar{x}) - y^{*} (x) 〉 \\ \leq ‖ \nabla_{y} c (\bar{x}, y^{*} (\bar{x})) - \nabla_{y} c (x, y^{*} (\bar{x})) ‖ ‖ y^{*} (\bar{x}) - y^{*} (x) ‖ \\ \leq L_{y x} ‖ \bar{x} - x ‖ ‖ y^{*} (\bar{x}) - y^{*} (x) ‖ \end{matrix}$

$‖ y^{*} (\bar{x}) - y^{*} (x) ‖ \leq \frac{2 L_{y x}}{σ_{1}} ‖ \bar{x} - x ‖, \forall \bar{x}, x \in ℝ^{n}$ .

我们可以得到文献 [6]命题1相同的结论： $ϕ : ℝ^{n} \to ℝ$ 是连续函数( $C^{1}$ )函数，且梯度 $\nabla_{ϕ} (x) = \nabla_{x} c (x, y^{*} (x))$ 是 $L_{ϕ} = L_{x x} + \frac{2 L_{x y} L_{y x}}{σ_{1}}$ -Lipschitz连续的，其中 $y^{*} (x) = \underset{y \in ℝ^{m}}{\arg \min} {g (y) - c (x, y)}$ 。

根据上面得到的结论，复合最小化问题(5)可以用Bregman近端梯度法求解，即

$x_{k + 1} = \underset{x \in ℝ^{n}}{\arg \min} {f (x) + 〈 \nabla_{x} c (x_{k}, y^{*} (x_{k})), x 〉 + \frac{1}{α} D_{h} (x, x_{k})}$ .

但是该算法困难在于寻找 $y^{*} (x_{k})$ ，并且在迭代时，必须要使用内循环计算，从而导致算法变得非常复杂，故在这种情况下将我们提出算法(4)看成近似Bregman近端梯度法，不用求解

$y^{*} (x) = \underset{y \in ℝ^{m}}{\arg \max} {c (x, y) - g (y)}$ ，直接用算法(4)中的y-步中的 $y_{k}$ 或者 $y_{k + 1}$ 代替 $y^{*} (x_{k})$ ，而x-步就是上述算法。其中，算法(4)中的y-步的步长设为 $β = \frac{1}{L_{y y}}$ ，对于x-步的步长 $α$ 的选择将在下面的定理1中体现。

3. 收敛性分析

将鞍点问题(1)表述为复合最小化问题(5)，分析Bregman近端梯度上升下降法(4)的收敛性，设 ${x_{k}, y_{k}}_{k \in ℕ}$ 是由算法(4)产生的序列，本节我们得到 ${x_{k}}_{k \in ℕ}$ 收敛到函数 $Θ$ 的临界点：即 ${x_{k}}_{k \in ℕ} \to \bar{x} \in crit Θ : = {x : 0 \in \partial Θ (x)}$ 。另外得到 ${y_{k}}_{k \in ℕ} \to y^{*} (\bar{x})$ ，其中 $y^{*} (x)$ 是鞍点问题(1)的内部极大化问题的解。由于复合最小化问题(5)的目标函数是非凸非光滑的，缺少下降性质，借鉴文献 [6]的方法引入扰动类梯度下降序列，得到算法的次收敛性。

定义2 [6] 设 $Θ : ℝ^{n} \to (- \infty, \infty]$ 是真下半连续函数，若序列 ${(x_{k}, ν_{k})}_{k \geq 0} \subseteq dom Θ \times ℝ_{+}$ 满足下面的三个条件：

(a) 扰动充分下降性质：存在一个常数 $c_{1} > 0$ 使得对于任意的 $k \in ℕ$ 有

$c_{1} ({‖ x_{k + 1} - x_{k} ‖}^{2} + ν_{k}^{2}) \leq (Θ (x_{k}) + \frac{1}{2} ν_{k}^{2}) - (Θ (x_{k + 1}) + \frac{1}{2} ν_{k + 1}^{2})$ .

(b) 迭代间隙上的扰动次梯度下界：存在一个常数 $c_{2} > 0$ 使得对于任意的 $k \in ℕ$ ，这里存在 $ξ_{k + 1} \in \partial Θ (x_{k + 1})$ ，且 $ξ_{k + 1}$ 满足 $‖ ξ_{k + 1} ‖ \leq c_{2} (‖ x_{k + 1} - x_{k} ‖ - ν_{k})$ 。

(c) 设 ${x_{k}}_{k \in k \subset ℕ}$ 是一个子序列且收敛到 $\bar{x}$ ，则 $\underset{k \in k \subset ℕ}{\lim \sup} Θ (x_{k}) \leq Θ (\bar{x})$ 。

则 ${(x_{k}, ν_{k})}_{k \geq 0}$ 是关于 $Θ$ 的扰动类梯度下降序列。

下面给出在分析算法收敛性时的一些假设。

假设2 (a) Bregman函数 $h_{1} : ℝ^{m} \to ℝ$ 是 $σ_{h_{1}}$ -强凸函数并且是连续可微函数，即 $h_{1}$ 是 $L_{h_{1}}$ -光滑函数( $σ_{h_{1}} = L_{h_{1}}$ )；

(b) Bregman函数 $h_{2} : ℝ^{n} \to ℝ$ 是1-强凸函数，并且是连续可微函数，即 $h_{2}$ 是 $L_{h_{2}}$ -光滑函数；

(c) $\forall x \in ℝ^{n}, (- c (x, y), h_{1} (y))$ 关于y是 $\frac{L_{y y}}{2}$ -光滑自适应的，即 $\forall y, \bar{y} \in ℝ^{m}$ ，存在 $\frac{L_{y y}}{2} > 0$ ，有 $- c (x, y) \leq - c (x, \bar{y}) + 〈 - \nabla_{y} c (x, \bar{y}), y - \bar{y} 〉 + \frac{L_{y y}}{2} D_{h_{1}} (y, \bar{y})$ ；

(d) 算法的x-步迭代过程是有意义的，即

$x_{k + 1} \in \underset{x \in ℝ^{n}}{\arg \min} {f (x) + 〈 \nabla_{x} c (x_{k}, w_{k}), x 〉 + \frac{1}{α} D_{h_{2}} (x, x_{k})} \neq \emptyset$ .

在分析收敛性之前我们先给出一个与文献[10]中的引理2.6类似的结论，即内部最大化问题函数差值不等式。

引理3 设 $y \in dom (g)$ ， $(- c (x_{k}, y), h_{1} (y))$ 关于y 是 $\frac{L_{y y}}{2}$ -光滑自适应的，则

$Γ_{k} (y_{k + 1}) - Γ_{k} (y) \leq \frac{L_{y y}}{2} (D_{h_{1}} (y, y_{k}) - D_{h_{1}} (y, y_{k + 1}))$ . (7)

证明：近端梯度上升下降算法中的y-步迭代过程

$y_{k + 1} = {prox}_{\frac{1}{L_{y y}} g} (y_{k} + \frac{1}{L_{y y}} \nabla_{y} c (x_{k}, y_{k}))$ . (8)

是解决问题(1)的内部最大问题的步骤，该最大化问题可以表述为极小化问题

$\min_{y \in ℝ^{m}} {Γ_{k} (y) : = g (y) - c (x_{k}, y)}$ .

根据Moreau近端映射的定义，(8)式变为

$\begin{matrix} y_{k + 1} = \underset{y \in ℝ^{m}}{\arg \min} {g (y) + \frac{L_{y y}}{2} {‖ y - (y_{k} + \frac{1}{L_{y y}} \nabla_{y} c (x_{k}, y_{k})) ‖}^{2}} \\ = \underset{y \in ℝ^{m}}{\arg \min} {g (y) - 〈 \nabla_{y} c (x_{k}, y_{k}), y - y_{k} 〉 + \frac{L_{y y}}{2} {‖ y - y_{k} ‖}^{2} + \frac{1}{2 L_{y y}} {(\nabla_{y} c (x_{k}, y_{k}))}^{2}} \end{matrix}$

由于 $\frac{1}{2 L_{y y}} {(\nabla_{y} c (x_{k}, y_{k}))}^{2}$ 关于y是常数，则有

$y_{k + 1} = \underset{y \in ℝ^{m}}{\arg \min} {g (y) - 〈 \nabla_{y} c (x_{k}, y_{k}), y - y_{k} 〉 + \frac{L_{y y}}{2} {‖ y - y_{k} ‖}^{2}}$ .

将上面等式中的 ${‖ y - y_{k} ‖}^{2}$ 变为Bregman距离就是本文提出的算法的y-步迭代过程，即

$y_{k + 1} = \underset{y \in ℝ^{m}}{\arg \min} {g (y) - 〈 \nabla_{y} c (x_{k}, y_{k}), y - y_{k} 〉 + \frac{L_{y y}}{2} D_{h_{1}} (y, y_{k})}$ .

由于 $c (x_{k}, y_{k})$ 关于y是常数，则有

$y_{k + 1} = \underset{y \in ℝ^{m}}{\arg \min} {g (y) - c (x_{k}, y_{k}) - 〈 \nabla_{y} c (x_{k}, y_{k}), y - y_{k} 〉 + \frac{L_{y y}}{2} D_{h_{1}} (y, y_{k})}$ . (9)

设

$Q (y, y_{k}) = g (y) - c (x_{k}, y_{k}) - 〈 \nabla_{y} c (x_{k}, y_{k}), y - y_{k} 〉 + \frac{L_{y y}}{2} D_{h_{1}} (y, y_{k})$ ,

$l_{c} (y, y_{k}) = - c (x_{k}, y) + c (x_{k}, y_{k}) + 〈 \nabla_{y} c (x_{k}, y_{k}), y - y_{k} 〉$ .

对于(9)式，根据一阶最优性条件有

$0 \in \partial g (y_{k + 1}) - \nabla_{y} c (x_{k}, y_{k}) + \frac{L_{y y}}{2} (\nabla h_{1} (y_{k + 1}) - \nabla h_{1} (y_{k})) + N_{dom (g)} (y_{k + 1})$ .

设 $γ \in \partial g (y_{k + 1})$ ，则有

$- (γ - \nabla_{y} c (x_{k}, y_{k}) + \frac{L_{y y}}{2} (\nabla h_{1} (y_{k + 1}) - \nabla h_{1} (y_{k}))) \in N_{dom (g)} (y_{k + 1})$ .

$\forall y \in dom (g)$ ，根据法锥的定义有

$〈 y_{k + 1} - y, - (γ - \nabla_{y} c (x_{k}, y_{k}) + \frac{L_{y y}}{2} (\nabla h_{1} (y_{k + 1}) - \nabla h_{1} (y_{k}))) 〉 \geq 0$ ,

$〈 γ - \nabla_{y} c (x_{k}, y_{k}) + \frac{L_{y y}}{2} (\nabla h_{1} (y_{k + 1}) - \nabla h_{1} (y_{k})), y - y_{k + 1} 〉 \geq 0$ ,

$〈 γ, y - y_{k + 1} 〉 \geq 〈 \nabla_{y} c (x_{k}, y_{k}) - \frac{L_{y y}}{2} (\nabla h_{1} (y_{k + 1}) - \nabla h_{1} (y_{k})), y - y_{k + 1} 〉$ . (10)

因为 $g$ 是凸函数，且 $γ \in \partial g (y_{k + 1})$ ，则有

$〈 g (y) - g (y_{k + 1}) 〉 \geq 〈 γ, y - y_{k + 1} 〉$ , (11)

结合(10)和(11)两个不等式则有

$〈 g (y) - g (y_{k + 1}) 〉 \geq 〈 \nabla_{y} c (x_{k}, y_{k}) - \frac{L_{y y}}{2} (\nabla h_{1} (y_{k + 1}) - \nabla h_{1} (y_{k})), y - y_{k + 1} 〉$ .

$\begin{array}{l} Γ_{k} (y_{k + 1}) - Q (y_{k + 1}, y_{k}) \\ = g (y_{k + 1}) - c (x_{k}, y_{k + 1}) - g (y_{k + 1}) + c (x_{k}, y_{k}) + 〈 \nabla_{y} c (x_{k}, y_{k}), y_{k + 1} - y_{k} 〉 - \frac{L_{y y}}{2} D_{h_{1}} (y_{k + 1}, y_{k}) \\ = - c (x_{k}, y_{k + 1}) + c (x_{k}, y_{k}) + 〈 \nabla_{y} c (x_{k}, y_{k}), y_{k + 1} - y_{k} 〉 - \frac{L_{y y}}{2} D_{h_{1}} (y_{k + 1}, y_{k}) \end{array}$ (12)

由于 $(- c (x_{k}, y), h_{1} (y))$ 关于y 是 $\frac{L_{y y}}{2}$ -光滑自适应的，则有

$- c (x_{k}, y_{k + 1}) - (- c (x_{k}, y_{k})) - 〈 - \nabla_{y} c (x_{k}, y_{k}), y_{k + 1} - y_{k} 〉 \leq \frac{L_{y y}}{2} D_{h_{1}} (y_{k + 1}, y_{k})$ ,

$- c (x_{k}, y_{k + 1}) + c (x_{k}, y_{k}) + 〈 \nabla_{y} c (x_{k}, y_{k}), y_{k + 1} - y_{k} 〉 \leq \frac{L_{y y}}{2} D_{h_{1}} (y_{k + 1}, y_{k})$ , (13)

结合(12)和(13)不等式就有 $Γ_{k} (y_{k + 1}) - Q (y_{k + 1}, y_{k}) \leq 0$ ，那么

$\begin{matrix} Γ_{k} (y) - Γ_{k} (y_{k + 1}) \geq Γ_{k} (y) - Q (y_{k + 1}, y_{k}) \\ = g (y) - c (x_{k}, y) - g (y_{k + 1}) + c (x_{k}, y_{k}) + 〈 \nabla_{y} c (x_{k}, y_{k}), y_{k + 1} - y_{k} 〉 - \frac{L_{y y}}{2} D_{h_{1}} (y_{k + 1}, y_{k}) \\ = - c (x_{k}, y) + c (x_{k}, y_{k}) + 〈 \nabla_{y} c (x_{k}, y_{k}), y - y_{k} 〉 - 〈 \nabla_{y} c (x_{k}, y_{k}), y - y_{k} 〉 \\ + 〈 \nabla_{y} c (x_{k}, y_{k}), y_{k + 1} - y_{k} 〉 - \frac{L_{y y}}{2} D_{h_{1}} (y_{k + 1}, y_{k}) + g (y) - g (y_{k + 1}) \\ = l_{c} (y, y_{k}) - 〈 \nabla_{y} c (x_{k}, y_{k}), y - y_{k + 1} 〉 - \frac{L_{y y}}{2} D_{h_{1}} (y_{k + 1}, y_{k}) + g (y) - g (y_{k + 1}) \end{matrix}$

$\begin{matrix} Γ_{k} (y) - Γ_{k} (y_{k + 1}) \geq l_{c} (y, y_{k}) - 〈 \nabla_{y} c (x_{k}, y_{k}), y - y_{k + 1} 〉 - \frac{L_{y y}}{2} D_{h_{1}} (y_{k + 1}, y_{k}) \\ + 〈 \nabla_{y} c (x_{k}, y_{k}) - \frac{L_{y y}}{2} (\nabla h_{1} (y_{k + 1}) - \nabla h_{1} (y_{k})), y - y_{k + 1} 〉 \\ = l_{c} (y, y_{k}) - \frac{L_{y y}}{2} D_{h_{1}} (y_{k + 1}, y_{k}) + \frac{L_{y y}}{2} 〈 \nabla h_{1} (y_{k}) - \nabla h_{1} (y_{k + 1}), y - y_{k + 1} 〉 \end{matrix}$

再利用Bregman距离三点恒等式则有

$\begin{matrix} Γ_{k} (y) - Γ_{k} (y_{k + 1}) \geq l_{c} (y, y_{k}) - \frac{L_{y y}}{2} D_{h_{1}} (y_{k + 1}, y_{k}) + \frac{L_{y y}}{2} (D_{h_{1}} (y, y_{k + 1}) + D_{h_{1}} (y_{k + 1}, y_{k}) - D_{h_{1}} (y, y_{k})) \\ = l_{c} (y, y_{k}) + \frac{L_{y y}}{2} (D_{h_{1}} (y, y_{k + 1}) - D_{h_{1}} (y, y_{k})) \end{matrix}$

$Γ_{k} (y_{k + 1}) - Γ_{k} (y) \leq - l_{c} (y, y_{k}) + \frac{L_{y y}}{2} (D_{h_{1}} (y, y_{k}) - D_{h_{1}} (y, y_{k + 1}))$ ,

因为 $c (x, y)$ 关于y是凹函数，则

$- l_{c} (y, y_{k}) = c (x_{k}, y) - c (x_{k}, y_{k}) - 〈 \nabla_{y} c (x_{k}, y_{k}), y - y_{k} 〉 \leq 0$ ,

$Γ_{k} (y_{k + 1}) - Γ_{k} (y) \leq \frac{L_{y y}}{2} (D_{h_{1}} (y, y_{k}) - D_{h_{1}} (y, y_{k + 1}))$ .

通过上面引理3的结论，得到近端梯度上升迭代点之间的不等式关系，即下面的引理4。

引理4 ( $y_{k}$ 与 $y_{k + 1}$ 之间的关系)假设Bregman函数 $h_{1} : ℝ^{m} \to ℝ$ 满足假设2(a)，令 $κ = \frac{L_{y y} L_{h_{1}}}{2 (σ_{1} - L_{1})}$ ，则对任意的 $k \in ℕ$ 有

$‖ y_{k + 1} - y^{*} (x_{k + 1}) ‖ \leq \sqrt{\frac{κ}{κ + 1}} ‖ y^{*} (x_{k}) - y_{k} ‖ + \frac{2 L_{y x}}{σ_{1}} ‖ x_{k} - x_{k + 1} ‖$ (14)

$‖ y_{k + 1} - y^{*} (x_{k}) ‖ \leq \sqrt{\frac{κ}{κ + 1}} (\frac{2 L_{y x}}{σ_{1}} ‖ x_{k} - x_{k - 1} ‖ + ‖ y_{k} - y^{*} (x_{k - 1}) ‖)$ (15)

${‖ y_{k + 1} - y^{*} (x_{k + 1}) ‖}^{2} \leq \frac{κ (1 + 1 / 2 κ)}{κ + 1} {‖ y^{*} (x_{k}) - y_{k} ‖}^{2} + \frac{(1 + 2 κ) 4 L_{y x}^{2}}{σ_{1}^{2}} {‖ x_{k} - x_{k + 1} ‖}^{2}$ (16)

${‖ y_{k + 1} - y^{*} (x_{k}) ‖}^{2} \leq \frac{κ (1 + 1 / 2 κ)}{κ + 1} ({‖ y^{*} (x_{k - 1}) - y_{k} ‖}^{2} + \frac{4 κ L_{y x}^{2}}{σ_{1}^{2}} {‖ x_{k - 1} - x_{k} ‖}^{2})$ (17)

证明： $y_{k + 1} = {prox}_{\frac{1}{L_{y y}} g} (y_{k} + \frac{1}{L_{y y}} \nabla_{y} c (x_{k}, y_{k}))$ 是解决问题(1)内部最大化的近端梯度上升步骤，将其表述为下列最小化问题：

$\min_{y \in ℝ^{m}} {Γ_{k} (y) : = g (y) - c (x_{k}, y)}$ ，则根据假设1(d)可知 $Γ_{k} (y)$ 是 $σ_{1}$ -强拟凸函数，其唯一极小元为 $y^{*} (x_{k}) : = \arg \min Γ_{k} (y)$ ，根据引理1有：

$\frac{σ_{1}}{2} {‖ y_{k + 1} - y^{*} (x_{k}) ‖}^{2} \leq 〈 \nabla Γ_{k} (y_{k + 1}), y_{k + 1} - y^{*} (x_{k}) 〉$ . (18)

另外，根据假设1(d)和下降引理[11]有

$Γ_{k} (y^{*} (x_{k})) - Γ_{k} (y_{k + 1}) \leq 〈 \nabla Γ_{k} (y_{k + 1}), y^{*} (x_{k}) - y_{k + 1} 〉 + \frac{L_{1}}{2} {‖ y_{k + 1} - y^{*} (x_{k}) ‖}^{2}$ . (19)

结合(18)和(19)两个不等式，则有

$\frac{σ_{1}}{2} {‖ y_{k + 1} - y^{*} (x_{k}) ‖}^{2} \leq Γ_{k} (y_{k + 1}) - Γ_{k} (y^{*} (x_{k})) + \frac{L_{1}}{2} {‖ y_{k + 1} - y^{*} (x_{k}) ‖}^{2}$ ,

$(\frac{σ_{1}}{2} - \frac{L_{1}}{2}) {‖ y_{k + 1} - y^{*} (x_{k}) ‖}^{2} \leq Γ_{k} (y_{k + 1}) - Γ_{k} (y^{*} (x_{k}))$ .

因为Bregman函数 $h_{1}$ 是 $σ_{h_{1}}$ -强凸函数并且是连续可微函数 $L_{h_{1}}$ -光滑的，则会有以下结论：

$D_{h_{1}} (y^{*} (x_{k}), y_{k}) \leq \frac{L_{h_{1}}}{2} {‖ y^{*} (x_{k}) - y_{k} ‖}^{2}$ 和 $D_{h_{1}} (y^{*} (x_{k}), y_{k + 1}) \geq \frac{σ_{h_{1}}}{2} {‖ y^{*} (x_{k}) - y_{k + 1} ‖}^{2}$

则引理3中的不等式(7)放缩为

$Γ_{k} (y_{k + 1}) - Γ_{k} (y^{*} (x_{k})) \leq \frac{L_{y y}}{2} (\frac{L_{h_{1}}}{2} {‖ y^{*} (x_{k}) - y_{k} ‖}^{2} - \frac{σ_{h_{1}}}{2} {‖ y^{*} (x_{k}) - y_{k + 1} ‖}^{2})$

$(\frac{σ_{1}}{2} - \frac{L_{1}}{2}) {‖ y_{k + 1} - y^{*} (x_{k}) ‖}^{2} \leq Γ_{k} (y_{k + 1}) - Γ_{k} (y^{*} (x_{k})) \leq \frac{L_{y y}}{2} (\frac{L_{h_{1}}}{2} {‖ y^{*} (x_{k}) - y_{k} ‖}^{2} - \frac{σ_{h_{1}}}{2} {‖ y^{*} (x_{k}) - y_{k + 1} ‖}^{2})$

$(2 (σ {}_{1}- L_{1}) + σ_{h_{1}} L_{y y}) {‖ y_{k + 1} - y^{*} (x_{k}) ‖}^{2} \leq L_{y y} L_{h_{1}} {‖ y^{*} (x_{k}) - y_{k} ‖}^{2} ‖ y_{k + 1} - y^{*} (x_{k}) ‖ \leq \sqrt{\frac{L_{y y} L_{h_{1}}}{2 (σ {}_{1}- L_{1}) + σ_{h_{1}} L_{y y}}} ‖ y^{*} (x_{k}) - y_{k} ‖$

由于 $σ_{h_{1}} = L_{h_{1}}$ ，令 $κ = \frac{L_{y y} L_{h_{1}}}{2 (σ_{1} - L_{1})}$ ，则有

$‖ y_{k + 1} - y^{*} (x_{k}) ‖ \leq \sqrt{\frac{κ}{κ + 1}} ‖ y^{*} (x_{k}) - y_{k} ‖$

$\begin{matrix} ‖ y_{k + 1} - y^{*} (x_{k + 1}) ‖ = ‖ y_{k + 1} - y^{*} (x_{k}) + y^{*} (x_{k}) - y^{*} (x_{k + 1}) ‖ \\ \leq ‖ y_{k + 1} - y^{*} (x_{k}) ‖ + ‖ y^{*} (x_{k}) - y^{*} (x_{k + 1}) ‖ \\ \leq \sqrt{\frac{κ}{κ + 1}} ‖ y^{*} (x_{k}) - y_{k} ‖ + \frac{2 L_{y x}}{σ_{1}} ‖ x_{k} - x_{k + 1} ‖ \end{matrix}$

$\begin{matrix} ‖ y_{k + 1} - y^{*} (x_{k}) ‖ \leq \sqrt{\frac{κ}{κ + 1}} ‖ y^{*} (x_{k}) - y_{k} ‖ = \sqrt{\frac{κ}{κ + 1}} ‖ y^{*} (x_{k}) - y^{*} (x_{k - 1}) + y^{*} (x_{k - 1}) - y_{k} ‖ \\ \leq \sqrt{\frac{κ}{κ + 1}} (‖ y^{*} (x_{k}) - y^{*} (x_{k - 1}) ‖ + ‖ y^{*} (x_{k - 1}) - y_{k} ‖) \\ \leq \sqrt{\frac{κ}{κ + 1}} (\frac{2 L_{y x}}{σ_{1}} ‖ x_{k} - x_{k - 1} ‖ + ‖ y^{*} (x_{k - 1}) - y_{k} ‖) \end{matrix}$

故(14)和(15)得证。在不等式 ${(a + b)}^{2} \leq (1 + μ) a^{2} + (1 + μ^{- 1}) b^{2}, (μ > 0)$ 中，令 $μ \equiv \frac{1}{2 κ}$ 将其应用到(14)和(15)两个不等式，就会得到(16)和(17)两个不等式。

这是对于算法的y-步的分析，我们选取满足假设2(a)的Bregman函数 $h_{1}$ 得到文献 [6]中引理6同样的结论。关于x步的次梯度有界性和利用x步得到函数值差距的结论也会得到与文献[6]类似的结论。

引理5 [6] (给出函数 $ϕ$ 的光滑自适应性质)设 $φ : ℝ^{n} \to ℝ$ ，且 $\forall x \in ℝ^{n}, φ (x) : = M_{x x} h_{2} (x) + (2 L_{x y} L_{y x} / σ_{1}) {‖ x ‖}^{2}$ ，则 $(ϕ, φ)$ 是1-光滑自适应的，即

$ϕ (\bar{x}) - ϕ (x) - 〈 \nabla ϕ (x), \bar{x} - x 〉 \leq D_{φ} (\bar{x}, x)$ .

引理6 [6] (x步函数值差值)设 ${(x_{k}, w_{k})}_{k \in ℕ}$ 是由近端梯度算法产生的序列，则 $\forall k \geq 0$ ，有

$Θ (x_{k + 1}) - Θ (x_{k}) \leq \frac{1}{2} (L_{x y}^{2} - M_{ϕ} - \frac{1}{α}) {‖ x_{k + 1} - x_{k} ‖}^{2} + \frac{1}{2} {‖ w_{k} - y^{*} (x_{k}) ‖}^{2}$ ,

其中 $M_{ϕ} = M_{x x} + \frac{4 L_{x y} L_{y x}}{σ_{1}}$ 。

引理7 [6] (x步的次梯度有界性)设 ${(x_{k}, w_{k})}_{k \in ℕ}$ 是由近端梯度算法产生的序列，则存在M大于0使得 $\forall k \geq 0$ ， $\exists ξ_{k + 1} \in \partial Θ (x_{k + 1})$ ，且满足不等式 $‖ ξ_{k + 1} ‖ \leq M (‖ x_{k + 1} - x_{k} ‖ + ‖ w_{k} - y^{*} (x_{k}) ‖)$ ，其中

$M = \max {\frac{L_{h {}_{1}}}{α} + L_{x x} + \frac{2 L_{x y} L_{y x}}{σ_{1}}, L_{x y}}$ 。

令扰动序列 $ν_{k}$ ： $ν_{k} = \sqrt{s} ‖ y_{k} - y^{*} (x_{k}) ‖$ ( $w_{k} = y_{k}$ 时)， $ν_{k} = \sqrt{t {‖ x_{k} - x_{k - 1} ‖}^{2} + s {‖ y_{k} - y^{*} (x_{k - 1}) ‖}^{2}}$ ( $w_{k} = y_{k + 1}$ 时)，其中 $s, t$ 为大于0的实数。引入的扰动序列 $ν_{k}$ 满足扰动类梯度下降序列的3个条件，其证明方法与文献[6]相同。故可以得到算法的次收敛性。若问题(1)的目标函数是半代数函数，则得到算法的全局收敛性。下面先给出定理1，定理1给出算法(4) x-步的步长 $α$ 的选择。并且在恰当的步长选择下，得到算法的收敛性，即定理2。

定理1 设由算法(4)产生的序列 ${x {}_{k}, y_{k}}_{k \geq 0}$ 有界，并且设 $α < \frac{1}{L}$ ，其中 $α$ 为算法(4)中x-步的算法步长。 $L : = L_{x y}^{2} + M_{ϕ} + \frac{2 (2 κ^{2} + 3 κ + 1) L_{y x}^{2}}{σ_{1}^{2}}$ ( $w_{k} = y_{k + 1}$ 时)， $L : = L_{x y}^{2} + M_{ϕ} + \frac{2 (2 κ^{2} + κ) L_{y x}^{2}}{σ_{1}^{2}}$ ( $w_{k} = y_{k + 1}$ 时)，则 $\forall ε > 0$ ， $\exists k = Ο (ε^{- 2})$ 使得

$‖ x_{k + 1} - x_{k} ‖ \leq ε$ , $dist (0, \partial Θ (x_{k})) \leq ε$ , $‖ y_{k} - y^{*} (x_{k}) ‖ \leq ε$ .

定理2 设由算法产生的序列 ${x_{k}, y_{k}}_{k \geq 0}$ 有界，假设 $α < \frac{1}{L}$ ，则下面两个结论成立：

(1) 设 $Ω$ 是序列 ${x_{k}}_{k \geq 0}$ 的聚点集合，则 $Ω$ 是一个非空紧集；且 $Ω \subseteq crit Θ$ ； $\lim_{x \to \infty} dist (x_{k}, Ω) = 0$ ； $Θ$ 在

$Ω$ 上是有限的常数；设 ${x_{k}}_{k \in k \subset ℕ}$ 是 ${x_{k}}_{k \geq 0}$ 的子序列，并且 ${x_{k}}_{k \in k \subset ℕ}$ 收敛到 $\bar{x} \in Ω$ ，则 ${y_{k}}_{k \geq 0}$ 的子序列 ${y_{k}}_{k \in k \subset ℕ}$ 收敛到 $y^{*} (\bar{x})$ 。

(2) 另外再假设函数 $f, g, c$ 是半代数函数，则有 $\sum_{k = 1}^{\infty} ‖ x_{k + 1} - x_{k} ‖ < \infty$ ，并且 ${x_{k}}_{k \geq 0}$ 收敛到点 $\bar{x} \in crit Θ$ ； ${y_{k}}_{k \geq 0}$ 收敛到 $y^{*} (\bar{x})$ 。

定理1，定理2的证明过程参考文献[6]的引理4和定理1。

基金项目

这项研究部分由重庆市研究生联合培养基地建设项目(JDLHYJD2021016)、重庆市高校科技创新团队建设项目(CXQT21021)资助。

参考文献

[1]	Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., et al. (2014) Generative Adversarial Nets. Communications of the ACM, 63, 139-144.
[2]	Nemirovskiĭ, A.S., El Ghaoui, L. and Ben-Tal, A. (2009) Robust Optimization (Princeton Series in Applied Mathematics). Princeton University Press.
[3]	Phillips, D. (1994) Image Processing in C: Analyzing and Enhancing Digital Images. R & D Publications.
[4]	Orfanidis, S.J. (1995) Introduction to Signal Processing. Prentice-Hall, Inc.
[5]	Jiang, J. and Chen, X. (2023) Optimality Conditions for Nonsmooth Nonconvex-Nonconcave Min-Max Problems and Generative Adversarial Networks. SIAM Journal on Mathematics of Data Science, 5, 693-722. https://doi.org/10.1137/22m1482238
[6]	Cohen, E. and Teboulle, M. (2024) Alternating and Parallel Proximal Gradient Methods for Nonsmooth, Nonconvex Minimax: A Unified Convergence Analysis. Mathematics of Operations Research. https://doi.org/10.1287/moor.2022.0294
[7]	Lin, T., Jin, C. and Jordan, M. (2020) On Gradient Descent Ascent for Nonconvex-Concave Minimax Problems. International Conference on Machine Learning, 13-18 July 2020, 6083-6093.
[8]	Rockafellar, R. and Wets, J. (2004) Variational Analysis. Springer.
[9]	Lara, F. (2022) On Strongly Quasiconvex Functions: Existence Results and Proximal Point Algorithms. Journal of Optimization Theory and Applications, 192, 891-911. https://doi.org/10.1007/s10957-021-01996-8
[10]	Beck, A. and Teboulle, M. (2009) Gradient-Based Algorithms with Applications to Signal-Recovery Problems. In: Palomar, D.P. and Eldar, Y.C., Eds., Convex Optimization in Signal Processing and Communications, Cambridge University Press, 42-88. https://doi.org/10.1017/cbo9780511804458.003
[11]	Beck, A. (2017) First-Order Methods in Optimization. Society for Industrial and Applied Mathematics. https://doi.org/10.1137/1.9781611974997

为你推荐

友情链接