最小约束违背非线性凸优化

期刊菜单

最小约束违背非线性凸优化
Nonlinear Convex Optimization with Least Constraint Violation

DOI: 10.12677/aam.2024.139393, PDF, HTML, XML,
作者: 路斯文：长沙理工大学数学与统计学院，湖南长沙
关键词: 最小约束违背优化问题；MPCC；W-稳定点；增广拉格朗日方法；Least Constraint Violation； MPCC； W-Stationary Point； Augmented Lagrangian Method

摘要: 本文基于不可行性度量和互补约束优化模型的角度研究最小约束违背凸优化问题。首先我们对约束不相容的凸优化问题建立了最小约束违背优化模型。当问题中的约束相容时，该模型可退化为原始问题。当约束不相容时，该模型等价于某个MPCC问题。其次我们证明了该等价问题的W-稳定性。最后我们用增广拉格朗日方法求解该等价问题，证明了该方法生成的点列收敛到等价MPCC问题的W-稳定点。

Abstract: In this paper, the problem of least constrained contracorvex optimization is studied from the perspective of the infeasibility measure and the complementary constraint optimization model. Firstly, we establish a minimum constraint violation optimization model for the convex optimization problem with incompatible constraints. When the constraints in the problem are compatible, the model can degenerate to the original problem. When the constraints are incompatible, the model is equivalent to an MPCC problem. Second, we demonstrate the W-stability of the equivalence problem. Finally, we use the augmented Lagrangian method to solve the equivalence problem, and prove that the point series generated by the method converges to the W-stable point of the equivalent MPCC problem.

文章引用：路斯文. 最小约束违背非线性凸优化[J]. 应用数学进展, 2024, 13(9): 4119-4128. https://doi.org/10.12677/aam.2024.139393

1. 引言

关于非线性规划问题，已有不少不可行稳定点和算法。例如Byrd，Curtis与Nocedal [1]提出了SQP算法，在一组条件下可以保证算法超线性收敛到一个 $l_{1}$ -范数度量的不可行稳定点。Burke，Curtis与Wang [2]考虑具有等式和不等式约束的一般非线性规划问题，证明了他们所提的SQP算法可以全局并且快速收敛到KKT点，或者超线性或二次收敛到 $l_{1}$ -范数度量的不可行稳定点。Dai，Liu与Sun [3]提出了一个原始–对偶内点方法，并证明了该内点方法当原始问题可行时，在一定条件下超线性或二次收敛到问题的KKT点；当问题不可行时，则超线性或二次收敛到 $l_{2}$ -范数度量的不可行稳定点。

这些算法都是求解约束条件不可行性度量的某个稳定点，这样的稳定点与原问题的目标函数没有任何关系，并不是最小约束违背优化问题的解[4]。因此有必要考虑在最小约束违背的点集上极小化目标函数。Dai和Zhang [5]依据Lipschitz连续优化的最优性理论，提出了L-稳定点的概念，并构造了求解最小约束违背的非线性凸规划问题的惩罚函数方法和用于求解最小约束违背的非线性凸优化问题等价MPCC问题的光滑Fischer-Burmeister函数方法。

然而，惩罚函数方法并不是精确的，当惩罚参数较大时，惩罚函数方法会出现计算困难，并且光滑函数方法只能收敛到问题的L-稳定点。由于约束规范不同导致无法确定L-稳定点和S-稳定点之间的关系。为了克服惩罚函数方法和光滑函数方法在求解最小约束违背优化问题的局限性，对最小约束违背凸优化问题值得重新考虑新的理论和算法。Chiche和Gilbert [6]的研究为我们提供了有价值的线索，他们证明了增广拉格朗日方法可以处理一个不可行的凸二次规划问题，这促使我们考虑用增广拉格朗日方法来处理最小约束违背的非线性凸优化问题。

本文采用增广拉格朗日方法求解最小约束违背优化等价的MPCC问题，进而达到求解最小约束违背优化问题的目的，并证明了增广拉格朗日方法生成的点列收敛到该等价MPCC问题的W-稳定点。

2. 基于不可行性度量的数学规划模型

本节考虑如下形式的非线性规划问题

$\begin{array}{l} min f (x) \\ s .t . h (x) = 0, \\ g (x) \geq 0, \end{array}$ (2.1)

其中用 $f : R^{n} \to R$ ， $h : R^{n} \to R^{q}$ ， $g : R^{n} \to R^{p}$ 。记问题(2.1)的可行域：

$Φ = {x \in R^{n} : h (x) = 0, g (x) \geq 0} .$

基于上述非线性规划问题，为后续讨论需要，引入问题的不可行性度量。

定义2.1 [5]函数 $θ : R^{n} \to R$ 称为约束 $(h (x), g (x)) \in {0_{q}} \times R_{+}^{p}$ 的不可行度量，如果存在递增连续函数 $ρ : R_{+} \to R_{+}$ 满足 $ρ (0) = 0$ ，使得

$θ (x) = ρ (dist ((h (x), g (x)), {0_{q}} \times R_{+}^{p})),$

其中

$dist ((h (x), g (x)), {0_{q}} \times R_{+}^{p}) = \inf {‖ h (x), y - g (x) ‖ : y \in R_{+}^{p}}$

是由 $(h (x), g (x))$ 到 ${0_{q}} \times R_{+}^{p}$ 在 $R^{q} \times R^{p}$ 的范数 $‖ \cdot ‖$ 下的距离。

显然， $θ (x)$ 依赖于函数 $ρ (\cdot)$ 和范数 $‖ \cdot ‖$ 。本文中采用 $ρ (t) = \frac{1}{2} t^{2}$ ，范数 $‖ \cdot ‖$ 采用标准的欧式范数，即 $l_{2}$ -范数。

在上述不可行性度量下，引入在具有最小约束违背点集上极小化目标函数 $f (x)$ 的数学模型。

定义2.2 [5]对于约束 $(h (x), g (x)) \in {0_{q}} \times R_{+}^{p}$ 的一个不可行度量 $θ (x)$ ，与 $θ$ 相联系的最小约束违背的极小化目标函数 $f (x)$ 的数学模型定义为

$\begin{array}{l} \min f (x) \\ s .t . x \in Arg \min_{z} θ (z) . \end{array}$ (2.2)

显然，如果可行域 $Φ$ 非空，那么 $\min_{z} θ (z) = 0$ ， $Arg \min_{z} θ (z) = Φ$ ，问题(2.2)恰好就是原始问题(2.1)。因此，问题(2.2)可以被视为原始问题(2.1)的拓广。

在定义2.2中，没有阐述 $Arg \min_{z} θ (z)$ 的含义，要看具体情况如何约定。如果 $θ (z)$ 是凸函数，显然这一集合就是全局极小点的集合。然而，如果 $θ (z)$ 是非凸函数(比如问题是可行的，当 $Φ$ 是非凸时就是这一情形)。 $Arg \min_{z} θ (z)$ 可以理解为局部极小点，甚至是稳定点集。在非凸优化的情形，不可行性检测是非常难的问题。

对 $ρ (t) = \frac{1}{2} t^{2}$ ， $t \geq 0$ ，约束的最小违背定义为下述问题的最优值

$\begin{array}{l} \min \frac{1}{2} {‖ (h (x), y) ‖}^{2} \\ s .t . g (x) + y \geq 0_{p} . \end{array}$ (2.3)

最小约束违背的点集定义为

$S = {x : (x, y) 求解问题 (2.3)} .$

在S上极小化f的问题是

$\begin{array}{l} \min f (x) \\ s .t . (x, y) 求解 \end{array}$ (2.4)

${\begin{cases} \min_{w, z} \frac{1}{2} {‖ h (w) ‖}^{2} + {‖ z ‖}^{2} \\ s .t . g (w) + z \geq 0. \end{cases}$

用 $(P_{L})$ 记问题(2.4)的下层问题，即

$(P_{L})$ ${\begin{cases} \min_{w, z} [\frac{1}{2} {‖ h (w) ‖}^{2} + {‖ z ‖}^{2}] \\ s .t . g (w) + z \geq 0. \end{cases}$

利用与 $ρ (t)$ 的关系，有

$θ (w) = \frac{1}{2} {‖ h (x) ‖}^{2} + \min_{z} {\frac{1}{2} {‖ z ‖}^{2} : g (w) + z \geq 0} = \frac{1}{2} [{‖ h (w) ‖}^{2} + {‖ {[g (w)]}_{-} ‖}^{2}],$

其中 ${[z]}_{-} = {({[z_{1}]}_{-}, \dots, {[z_{p}]}_{-})}^{T}$ ， $z \in R^{p}$ ，其中 ${[t]}_{-} = \min {0, t}$ ， $t \in R$ 。容易验证， $θ (w)$ 是问题(2.1)的一个不可行性度量。问题 $(P_{L})$ 的最优解可表示为

$Arg \min (P_{L}) = Arg \min_{x} θ (x) = Arg \min_{x} \frac{1}{2} [{‖ h (x) ‖}^{2} + {‖ {[g (x)]}_{-} ‖}^{2}] .$

所以，问题(2.4)可等价地表示为

$\begin{array}{l} \min f (x) \\ s .t . x \in Arg \min_{w} \frac{1}{2} [{‖ h (w) ‖}^{2} + {‖ {[g (w)]}_{-} ‖}^{2}] . \end{array}$ (2.5)

容易验证，如果h和g是可微的，则 $θ (x)$ 是可微的，且满足

$\nabla θ = J h {(x)}^{T} h (x) + J g {(x)}^{T} {[g (w)]}_{-} .$ (2.6)

以下讨论最小约束违背的非线性凸优化问题，将从模型(2.5)出发，并利用公式(2.6)解决该问题。

3. 最小约束违背非线性凸优化

3.1. 最小约束违背非线性凸优化等价的MPCC问题

考虑下述非线性凸优化问题

$\begin{array}{l} \min f (x) \\ s .t . A x - b = 0, \\ g (x) \geq 0, \end{array}$ (3.1)

其中f是一光滑的凸函数， $A \in R^{q \times n}$ ， $b \in R^{q}$ ，且每一个 $g_{i} (i = 1, \dots, p)$ 都是凹的光滑函数。此种情况下，函数 $θ (x)$ 是凸函数，从而问题(2.5)是凸优化问题，可被简化为

$\begin{array}{l} \min f (x) \\ s .t . A^{T} (A x - b) + J g {(x)}^{T} {[g (x)]}_{-} = 0. \end{array}$ (3.2)

尽管问题(3.2)是一个凸优化问题，其约束处理并不容易，因为这些约束是非光滑的等式，需要将约束转化为光滑约束，构造数值算法。通过引入辅助向量 $y \in R^{p}$ ，可将(3.2)中的约束表示为

$A^{T} (A x - b) + J g {(x)}^{T} y = 0,$

$0 \leq y ⊥ g (x) + y \geq 0.$

为讨论方便，定义 $z = g (x) + y$ ，上述系统可以表示为

$F (x, y, z) = 0, (y, z) \in Ω,$

其中

$F (x, y, z) = (\begin{matrix} A^{T} (A x - b) + J g {(x)}^{T} y \\ g (x) + y - z \end{matrix}),$

$Ω = {(y, z) \in R^{p} \times R^{q} : 0 \leq y ⊥ z \geq 0} .$ (3.3)

因此，问题(2.5)等价地表示为

$\begin{array}{l} \min f (x) \\ s .t . F (x, y, z) = 0, (y, z) \in Ω . \end{array}$ (3.4)

映射F在 $(x, y, z)$ 的Jacobian矩阵具有形式

$J F (x, y, z) = (\begin{matrix} A^{T} A - \sum_{j = 1}^{p} y_{i} \nabla^{2} g_{i} (x) & - J g {(x)}^{T} & 0 \\ J g (x) & I_{p} & - I_{p} \end{matrix}) .$ (3.5)

为后续讨论方便，我们记 $H (x, y) = A^{T} A - \sum_{j = 1}^{p} y_{i} \nabla^{2} g_{i} (x)$ ， $G (x) = J g (x)$ 。

用 $Φ$ 记问题(3.4)的可行域，即

$Φ = {(x, y, z) \in R^{n} \times Ω : F (x, y, z) = 0} .$

那么问题(3.4)可被简化为如下的MPCC问题

$\begin{array}{l} \min f (x) \\ s .t . (x, y, z) \in Φ . \end{array}$ (3.6)

3.2. 等价MPCC问题的必要性最优性条件

本节主要讨论MPCC (3.6)的最优性条件，下面我们首先来回顾一些符号和定理。定义下述指标集合

$α : = {i | y_{i} = 0, z_{i} > 0},$

$β : = {i | y_{i} = 0, z_{i} = 0},$

$γ : = {i | y_{i} > 0, z_{i} = 0} .$

为了得到 $N_{Φ} (\bar{x}, \bar{y}, \bar{z})$ 的显示表达式，我们首先给出抽象约束集合的切锥、法锥形式。

定理3.1 [7]设 $Ω_{i} = {(y_{i}, z_{i}) \in R^{2} | y_{i} \geq 0, z_{i} \geq 0, y_{i} z_{i} = 0}$ ，则对 $\forall (y_{i}, z_{i}) \in Ω_{i}$ ，有

$T_{Ω_{i}} (y_{i}, z_{i}) = {\begin{array}{l} {0} \times R, & y_{i} = 0, z_{i} > 0, \\ R \times {0}, & y_{i} > 0, z_{i} = 0, \\ Ω_{i}, & y_{i} = 0, z_{i} = 0, \end{array}$

$N_{Ω_{i}} (y_{i}, z_{i}) = {\begin{array}{l} R \times {0}, & y_{i} = 0, z_{i} > 0, \\ {0} \times R, & y_{i} > 0, z_{i} = 0, \\ (R_{-} \times R_{-}) \cup ({0} \times R) \cup (R \times {0}), & y_{i} = 0, z_{i} = 0, \end{array}$

${\hat{N}}_{Ω_{i}} (y_{i}, z_{i}) = {\begin{array}{l} R \times {0}, & y_{i} = 0, z_{i} > 0, \\ {0} \times R, & y_{i} > 0, z_{i} = 0, \\ (R_{-} \times R_{-}), & y_{i} = 0, z_{i} = 0. \end{array}$

进而有

${\hat{N}}_{R^{n} \times Ω} ({\bar{x}}_{i}, {\bar{y}}_{i}, {\bar{z}}_{i}) = {0} \times \otimes_{i = 1}^{m} {\hat{N}}_{Ω_{i}} ({\bar{y}}_{i}, {\bar{z}}_{i}) = {(0, d_{i}^{a}, d_{i}^{b}) : d_{α}^{b} = 0, d_{γ}^{a} = 0, d_{β}^{a} \leq 0, d_{β}^{b} \leq 0} .$

$\begin{matrix} N_{R^{n} \times Ω} ({\bar{x}}_{i}, {\bar{y}}_{i}, {\bar{z}}_{i}) = {0} \times \otimes_{i = 1}^{m} N_{Ω_{i}} ({\bar{y}}_{i}, {\bar{z}}_{i}) \\ = {(0, d_{i}^{a}, d_{i}^{b}) : d_{α}^{b} = 0, d_{γ}^{a} = 0, d_{β}^{a} \leq 0, d_{β}^{b} \leq 0 or d_{β}^{a} = 0 or d_{β}^{b} = 0} . \end{matrix}$

在基本约束规范成立的条件下，抽象约束集合的切锥、法锥形式具体如下：

定理3.2 [8] MPCC (3.6)的可行域为 $Φ = {(x, y, z) \in R^{n} \times Ω : F (x, y, z) = 0}$ ，其中 $R^{n} \times Ω \subset R^{n + 2 m}$ 是一个闭集合， $F : R^{2 n} \to R^{p}$ 是一个光滑连续可微映射， $F = {(g_{1}, \dots, g_{m}, h_{1}, \dots, h_{m})}^{T}$ ， $p = 2 m$ ，则：

1) $\begin{matrix} {\hat{N}}_{Φ} (\bar{x}, \bar{y}, \bar{z}) \supset {\sum_{i = 1}^{m} λ_{i} \nabla g_{i} (\bar{x}) + \sum_{i = 1}^{m} λ_{i} \nabla h_{i} (\bar{x}) + d | (λ^{g}, λ^{h}) \in R^{2 m}, d \in {\hat{N}}_{D} (\bar{x}, \bar{y}, \bar{z})} \\ = J F {(\bar{x}, \bar{y}, \bar{z})}^{T} R^{p} + {\hat{N}}_{D} (\bar{x}, \bar{y}, \bar{z}) \end{matrix}$ .

2) 如果基本约束规范在 $(\bar{x}, \bar{y}, \bar{z})$ 处成立，即：

${\begin{cases} y \in R^{p} \\ 0 \in J F {(\bar{x}, \bar{y}, \bar{z})}^{T} y + N_{R^{n} \times Ω} (\bar{x}, \bar{y}, \bar{z}) \end{cases} \to y = {(0, \dots, 0)}^{T}$

则 $N_{Φ} (\bar{x}, \bar{y}, \bar{z}) \subset J F {(\bar{x}, \bar{y}, \bar{z})}^{T} R^{p} + N_{D} (\bar{x}, \bar{y}, \bar{z})$ 。

3) 当 $β = \emptyset$ 时， $D = R^{n} \times Ω$ 在 $(\bar{x}, \bar{y}, \bar{z})$ 处正则， ${0}^{p}$ 在 $F (\bar{x}, \bar{y}, \bar{z})$ 处正则，则 $Φ$ 在 $(\bar{x}, \bar{y}, \bar{z})$ 处正则，得 ${\hat{N}}_{Φ} (\bar{x}, \bar{y}, \bar{z}) = N_{Φ} (\bar{x}, \bar{y}, \bar{z}) = J F {(\bar{x}, \bar{y}, \bar{z})}^{T} R^{p} + N_{D} (\bar{x}, \bar{y}, \bar{z})$ 。

下面给出在基本约束规范成立的条件下，MPCC问题的W-稳定点概念。

定理3.3 设 $\bar{x}$ 为MPCC (3.6)的局部最优解，且该点处基本约束规范成立，当 $β = \emptyset$ 时，严格互补松弛条件成立，则 $\bar{x}$ 为W-稳定点。即存在 $(λ^{H}, λ^{G}) \in R^{q + p}$ ，满足

$\nabla f (\bar{x}) + \sum_{i \in α \cup β} λ_{i}^{H} H (\bar{x}) + \sum_{i \in β \cup γ} λ_{i}^{G} G (\bar{x}) = 0,$

$λ_{γ}^{H} = 0, λ_{a}^{G} = 0.$

证明由定理3.2可知，MPCC问题的可行域集合的法锥形式如下：

$\begin{matrix} N_{Φ} (\bar{x}, \bar{y}, \bar{z}) \subseteq J F {(\bar{x}, \bar{y}, \bar{z})}^{T} R^{p} + N_{D} (\bar{x}, \bar{y}, \bar{z}) \\ \subseteq (\begin{matrix} H {(\bar{x})}^{T} λ^{H} + G {(\bar{x})}^{T} λ^{G} \\ - λ^{H} \\ - λ^{G} \end{matrix}) + (\begin{matrix} 0 \\ d^{H} \\ d^{G} \end{matrix}) \\ = (\begin{matrix} H {(\bar{x})}^{T} λ^{H} + G {(\bar{x})}^{T} λ^{G} \\ - λ^{H} + d^{H} \\ - λ^{G} + d^{G} \end{matrix}) . \end{matrix}$

因为 ${\hat{N}}_{Φ} (\bar{x}, \bar{y}, \bar{z}) \subset N_{Φ} (\bar{x}, \bar{y}, \bar{z})$ ，由基本最优性条件可得

$\begin{matrix} 0 \in \nabla f (\bar{x}) + {\hat{N}}_{Φ} (\bar{x}, \bar{y}, \bar{z}) \\ \in \nabla f (\bar{x}) + N_{Φ} (\bar{x}, \bar{y}, \bar{z}) \\ \in (\begin{matrix} \nabla f (\bar{x}) \\ 0 \\ 0 \end{matrix}) + (\begin{matrix} H {(\bar{x})}^{T} λ^{H} + G {(\bar{x})}^{T} λ^{G} \\ - λ^{H} + d^{H} \\ - λ^{G} + d^{G} \end{matrix}) \\ = (\begin{matrix} \nabla f (\bar{x}) + H {(\bar{x})}^{T} λ^{H} + G {(\bar{x})}^{T} λ^{G} \\ - λ^{H} + d^{H} \\ - λ^{G} + d^{G} \end{matrix}) . \end{matrix}$

所以存在 $λ^{H}, λ^{G}$ ，有

$0 = \nabla f (\bar{x}) + H {(\bar{x})}^{T} λ^{H} + G {(\bar{x})}^{T} λ^{G},$

$0 = - λ^{H} + d^{H},$

$0 = - λ^{G} + d^{G} .$

由定理3.1可知，当 $i \in γ$ 时，我们有 $d_{γ}^{H} = 0$ ，那么如果 $0 = - λ_{γ}^{H} + d_{γ}^{H}$ ，有 $λ_{γ}^{H} = 0$ ；当 $i \in α$ 时，我们有 $d_{α}^{G} = 0$ ，那么如果 $0 = - λ_{α}^{G} + d_{α}^{G}$ ，有 $λ_{α}^{G} = 0$ 。

由此可知 $\bar{x}$ 是W-稳定点。

4. 增广拉格朗日方法

对于等式约束优化问题

$\begin{array}{l} \min f (x) \\ s .t . g (x) = 0, x \in R^{n} . \end{array}$

对这一等式约束优化问题，Powell [9]、Hestenes [10]在1969年提出用增广拉格朗日方法来求解，首先将上述问题转化为

$\min f (x) + λ^{T} g (x) + c {‖ g (x) ‖}^{2}$

的无约束优化问题，这里 $c > 0$ 是罚参数， $λ$ 是增广拉格朗日乘子的近似。该方法可以通过对 $λ$ 进行迭代，得到近似最优解。

本节首先将问题(3.6)中的互补约束表示为拉格朗日函数的形式，它的拉格朗日函数 $L : R^{n} \times R^{p} \times R^{p} \to R$ 为

$L (x, y, z, λ) = f (x) + λ^{T} F (x, y, z),$ (4.1)

其中关于 $x, y, z$ 的梯度和Hessian矩阵如下：

$\nabla_{x} L (x, y, z, λ) = \nabla f (x) + J_{x} F {(x, y, z)}^{T} λ,$

$\nabla_{y} L (x, y, z, λ) = J_{y} F {(x, y, z)}^{T} λ,$

$\nabla_{z} L (x, y, z, λ) = J_{z} F {(x, y, z)}^{T} λ .$

问题(3.6)的增广拉格朗日函数 $L_{c} : R^{n} \times R^{p} \times R^{p} \to R$ 为

$L_{c} (x, y, z, λ) = f (x) + λ^{T} F (x, y, z) + \frac{c}{2} {‖ F (x, y, z) ‖}^{2},$ (4.2)

其中 $c > 0$ 是一个罚参数， $‖ \cdot ‖$ 表示欧几里得 $l_{2}$ -范数。则上述增广拉格朗日对偶问题为

$\max_{λ} {\inf_{(x, y, z)} L_{c^{k}} (x, y, z, λ^{k})} .$ (4.3)

求解该对偶问题的增广拉格朗日方法迭代格式如下：

$(x^{k + 1}, y^{k + 1}, z^{k + 1}) \in \underset{(x, y, z) \in Ω}{\arg \max} L_{c^{k}} (x, y, z, λ^{k}),$

$λ^{k + 1} = λ^{k} + c^{k} F (x^{k + 1}, y^{k + 1}, z^{k + 1}) .$

定理4.1 [11]设 $(\bar{x}, \bar{y}, \bar{z}, \bar{λ})$ 为 $L (x, y, z, λ)$ 的一个稳定点，则对任意的 $c > 0$ ， $(\bar{x}, \bar{y}, \bar{z}, \bar{λ})$ 也是 $L_{c} (x, y, z, λ)$ 的一个稳定点，而且 $L_{c} (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = L (\bar{x}, \bar{y}, \bar{z}, \bar{λ})$ 。反之也成立。

证明 $L_{c} (x, y, z, λ)$ 的梯度表达式为

$\nabla_{x} L_{c} (x, y, z, λ) = \nabla f (x) + J_{x} F {(x, y, z)}^{T} λ + c J_{x} F {(x, y, z)}^{T} F (x, y, z),$ (4.4)

$\nabla_{y} L_{c} (x, y, z, λ) = J_{y} F {(x, y, z)}^{T} λ + c J_{y} F {(x, y, z)}^{T} F (x, y, z),$ (4.5)

$\nabla_{z} L_{c} (x, y, z, λ) = J_{z} F {(x, y, z)}^{T} λ + c J_{z} F {(x, y, z)}^{T} F (x, y, z),$ (4.6)

$\nabla_{λ} L_{c} (x, y, z, λ) = F (x, y, z) .$ (4.7)

如果 $(\bar{x}, \bar{y}, \bar{z}, \bar{λ})$ 是 $L (x, y, z, λ)$ 的一个稳定点，那么有

$\nabla_{x} L (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = 0, \nabla_{y} L (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = 0, \nabla_{z} L (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = 0, F (x, y, z) = 0.$

因此，由(4.4) (4.5) (4.6) (4.7)可知，对任意的 $c > 0$ ，有

$\nabla_{x} L_{c} (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = \nabla f (x) + J_{x} F {(x, y, z)}^{T} λ + c J_{x} F {(x, y, z)}^{T} F (x, y, z) = 0,$

$\nabla_{y} L_{c} (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = J_{y} F {(x, y, z)}^{T} λ + c J_{y} F {(x, y, z)}^{T} F (x, y, z) = 0,$

$\nabla_{z} L_{c} (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = J_{z} F {(x, y, z)}^{T} λ + c J_{z} F {(x, y, z)}^{T} F (x, y, z) = 0,$

$\nabla_{λ} L_{c} (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = F (x, y, z) = 0.$

即 $(\bar{x}, \bar{y}, \bar{z}, \bar{λ})$ 是 $L_{c} (x, y, z, λ)$ 的一个稳定点。进一步，把 $F (\bar{x}, \bar{y}, \bar{z}) = 0$ 代入(4.2)即得

$L_{c} (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = L (\bar{x}, \bar{y}, \bar{z}, \bar{λ})$ 。

同样的，当

$\nabla_{x} L_{c} (\bar{x}, \bar{y}, \bar{z}, λ) = 0, \nabla_{y} L_{c} (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = 0, \nabla_{z} L_{c} (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = 0, \nabla_{λ} L_{c} (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = 0,$

有

$\nabla_{x} L (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = 0, \nabla_{y} L (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = 0, \nabla_{z} L (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = 0, F (\bar{x}, \bar{y}, \bar{z}) = 0$ 。

这说明 $(\bar{x}, \bar{y}, \bar{z}, \bar{λ})$ 是 $L (x, y, z, λ)$ 的一个稳定点。把 $F (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = 0$ 代入(4.2)就可以得到

$L_{c} (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) = L (\bar{x}, \bar{y}, \bar{z}, \bar{λ}) .$

最后，我们证明采用增广拉格朗日方法用于求解该等价MPCC问题所生成的点列收敛到该等价问题的W-稳定点。

定理4.2 设 ${(x^{k}, y^{k}, z^{k})}$ 为增广拉格朗日对偶问题(4.3)的KKT稳定点序列，假设 $(\bar{x}, \bar{y}, \bar{z}) \in Φ$ 是它的聚点，在 $\bar{x}$ 处MPCC-LICQ成立，则当 ${c_{k}} \to 0$ 时， $\bar{x}$ 是问题MPCC (3.6)的W-稳定点。

证明因为 ${(x^{k}, y^{k}, z^{k})}$ 为问题(4.3)的KKT稳定点序列，那么

$\nabla_{x} L_{c^{k}} (x^{k}, y^{k}, z^{k}, λ^{k}) = \nabla f (x^{k}) + J_{x^{k}} F {(x^{k}, y^{k}, z^{k})}^{T} λ^{k} + c^{k} J_{x^{k}} F {(x^{k}, y^{k}, z^{k})}^{T} F (x^{k}, y^{k}, z^{k}) = 0.$

记 $λ^{k} = (λ_{H}^{k}, λ_{G}^{k})$ ，

$\nabla_{x} L_{c^{k}} (x^{k}, y^{k}, z^{k}, λ^{k}) = \nabla f (x^{k}) + {(\begin{matrix} H (x^{k}) \\ G (x^{k}) \end{matrix})}^{T} λ^{k} + c^{k} (H {(x^{k})}^{T} G {(x^{k})}^{T}) (\begin{matrix} A^{T} (Ax - b) + J g {(x)}^{T} y \\ g (x) + y - z \end{matrix}) = 0.$

可以推出

$\nabla f (x^{k}) + H {(x^{k})}^{T} λ_{H}^{k} + G {(x^{k})}^{T} λ_{G}^{k} + c^{k} (H {(x^{k})}^{T} (A^{T} (Ax - b) + J g {(x)}^{T} y) + G {(x^{k})}^{T} (g (x) + y - z)) = 0.$

由上式可得

$\begin{matrix} - \nabla f (x^{k}) = H {(x^{k})}^{T} λ_{H}^{k} + G {(x^{k})}^{T} λ_{G}^{k} + c^{k} (H {(x^{k})}^{T} (A^{T} (Ax - b) + J g {(x)}^{T} y) + G {(x^{k})}^{T} (g (x) + y - z)) \\ = H {(x^{k})}^{T} (λ_{H}^{k} + c^{k} (A^{T} (Ax - b) + J g {(x)}^{T} y)) + G {(x^{k})}^{T} (λ_{G}^{k} + c^{k} (g (x) + y - z)) . \end{matrix}$

令

$a^{k} = λ_{H}^{k} + c^{k} (A^{T} (Ax - b) + J g {(x)}^{T} y), b^{k} = λ_{G}^{k} + c^{k} (g (x) + y - z),$ (4.8)

即

$- \nabla f (x^{k}) = H {(x^{k})}^{T} a^{k} + G {(x^{k})}^{T} b^{k} = \sum_{i = 1}^{p} a_{i}^{k} H (x^{k}) + \sum_{i = 1}^{p} b_{i}^{k} G (x^{k}) .$ (4.9)

下证式(4.8)中的乘子序列 ${a^{k}, b^{k}}$ 有界。如果 ${a^{k}, b^{k}}$ 无界，那么存在一个子集K，对任意的 $k \in K$ ， $k \to \infty$ ，有 $\frac{(a^{k}, b^{k})}{‖ (a^{k}, b^{k}) ‖} \to (a^{'}, b^{'})$ 。(4.9)式两边同时除以 $‖ (a^{k}, b^{k}) ‖$ 并取极限，当 $k \to \infty$ 时，有

$\sum_{i \in α \cup β} {a^{'}}_{i} H (\bar{x}) + \sum_{i \in β \cup γ} {b^{'}}_{i} G (\bar{x}) = 0.$

当 $i \in γ$ 时，

$\lim_{k \to \infty} a^{k} = λ_{H}^{k} + c^{k} (A^{T} (Ax - b) + J g {(x)}^{T} y) = 0.$

当 $i \in α$ 时，

$\lim_{k \to \infty} b^{k} = λ_{G}^{k} + c^{k} (g (x) + y - z) = 0.$

因为 $(a^{'}, b^{'}) \neq 0$ 与在 $\bar{x}$ 处满足MPCC-LICQ矛盾，所以 ${(a^{k}, b^{k})}$ 有界。

不失一般性，设 ${(a^{k}, b^{k})}$ 收敛于 $(\bar{a}, \bar{b})$ 设

$\lim_{k \to \infty} a_{i}^{k} = {\bar{a}}_{i}, \lim_{k \to \infty} b_{i}^{k} = {\bar{b}}_{i}, i = 1, \dots, m .$

当 $i \in γ$ 时， $λ_{H}^{k} = 0$ ， $k \to \infty$ ， $c^{k} \to 0$ 时，即 ${\bar{a}}_{i} = 0$ 。同理，当 $i \in α$ 时，可得 ${\bar{b}}_{i} = 0$ 。由H，G连续可微，对(4.9)取极限，得

$- \nabla f (\bar{x}) = \sum_{i \in α \cup β} {\bar{a}}_{i} H (\bar{x}) + \sum_{i \in β \cup γ} {\bar{b}}_{i} G (\bar{x})$ ，

$\nabla f (\bar{x}) = 0.$

即证得 $\bar{x}$ 是问题MPCC(3.6)的W-稳定点。

5. 结论

本文主要针对约束不相容的凸优化问题建立了最小约束违背优化模型。当约束相容时，模型退化为原始问题。当约束不相容时，模型可被重新表述为MPCC问题。并证明了该等价MPCC问题的W-稳定性。将增广拉格朗日方法用于求解该等价问题，证明了该方法生成的点列收敛到该等价问题的W-稳定点。

对于最小约束违背优化，还有许多问题值得研究。当不知道可行域是否为空集时，最小约束违背优化问题总是可行的，这是它的优点。如果约束问题是可行的，那么问题涉及的不可行性度量 $θ (x)$ 通常是光滑的，但不是二次可微的，这会带来计算上的困难。本文只处理了最小约束违背的凸优化问题，增广拉格朗日方法能否处理最小约束违背的非凸优化问题需要继续思考和研究。

参考文献

[1]	Byrd, R.H., Curtis, F.E. and Nocedal, J. (2010) Infeasibility Detection and SQP Methods for Nonlinear Optimization. SIAM Journal on Optimization, 20, 2281-2299. https://doi.org/10.1137/080738222
[2]	Burke, J.V., Curtis, F.E. and Wang, H. (2014) A Sequential Quadratic Optimization Algorithm with Rapid Infeasibility Detection. SIAM Journal on Optimization, 24, 839-872. https://doi.org/10.1137/120880045
[3]	Dai, Y., Liu, X. and Sun, J. (2020) A Primal-Dual Interior-Point Method Capable of Rapidly Detecting Infeasibility for Nonlinear Programs. Journal of Industrial & Management Optimization, 16, 1009-1035. https://doi.org/10.3934/jimo.2018190
[4]	戴彧虹, 张立卫. 最小约束违背优化[M]. 北京: 科学出版社, 2023: 223-253.
[5]	Dai, Y.-H. and Zhang, L. (2021) Optimization with Least Constraint Violation. CSIAM Transactions on Applied Mathematics, 2, 551-584. https://doi.org/10.4208/csiam-am.2020-0043
[6]	Chiche, A. and Gilbert, J.C.H. (2016) How the Augmented Lagrangian Algorithm Can Deal with An Infeasible Convex Quadratic Optimization Problem. Journal of Convex Analysis, 23, 425-459.
[7]	Rockafellar, R.T. and Wets, R.J.-B. (1998) Variational Analysis. Springer-Verlag.
[8]	张立卫, 吴佳, 张艺. 变分分析[M]. 北京: 科学出版社, 2013: 100-101.
[9]	Powell, M.J.D. (1969) A Method for Nonlinear Constraints in Minimization Problems. In: Fletcher, R., Ed., Optimization, Academic Press, 283-298.
[10]	Hestenes, M.R. (1969) Multiplier and Gradient Methods. Journal of Optimization Theory and Applications, 4, 303-320. https://doi.org/10.1007/bf00927673
[11]	刘昶. 互补约束优化问题的增广拉格朗日方法[D]: [硕士学位论文]. 大连: 大连理工大学, 2022.

为你推荐

友情链接