本文提出了一个求解非光滑约束优化问题基于非精确数据的改进水平束方法。该方法引入了非精确数据及相应的近似改进函数。此外,通过在投影子问题中引入Bregman距离以代替传统的欧氏距离,从而可以充分利用可行集的几何集合,减少算法的计算量。最后证明了算法的全局收敛性并分析了迭代复杂度。 This paper presents a modified level bundle method with inexact data for nonsmooth constrained optimization. In the method, the inexact data and the approximate improvement function are in-troduced. Moreover, in the projection subproblem, the Bregman distance is used to replace the classical Euclidean distance, in order that the geometric structure of the feasible set can be taken into account, which can reduce the computation of the algorithm. Global convergence of the algo-rithm is proved and the iterative complexity is analyzed.
李艳妮,郑海艳*,唐春明
广西大学数学与信息科学学院,广西 南宁
收稿日期:2019年8月13日;录用日期:2019年8月28日;发布日期:2019年9月4日
本文提出了一个求解非光滑约束优化问题基于非精确数据的改进水平束方法。该方法引入了非精确数据及相应的近似改进函数。此外,通过在投影子问题中引入Bregman距离以代替传统的欧氏距离,从而可以充分利用可行集的几何集合,减少算法的计算量。最后证明了算法的全局收敛性并分析了迭代复杂度。
关键词 :水平束方法,非精确数据,Bregman距离,全局收敛,复杂度分析
Copyright © 2019 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
本文研究求解以下非光滑约束凸优化问题:
f ∗ : = min f ( x ) s .t . c ( x ) ≤ 0 , x ∈ X , (1)
其中, f , c 均为
束方法是求解一般非光滑优化问题最有效的方法之一。求解约束问题(1)的束方法可细分为罚函数法 [
h ( x ; f ∗ ) = max { f ( x ) − f ∗ , c ( x ) } . (2)
从而求解问题(1)转化为在X上极小化改进函数(2)。但是在实际问题中最优值 f ∗ 通常是不知道的,Lemaréchal等 [
文献 [
另一方面,在很多实际问题中,往往很难精确计算函数值和次梯度,或者计算成本较高。因此,设计基于非精确数据的有效算法具有重要的理论意义和实用价值。最近,梁玲 [
本文针对非光滑约束优化问题(1),对文 [
本文采用非精确的一阶信息,即在每一次迭代中,对 ∀ x ∈ X ,分别产生函数 f , c 满足以下条件的近似函数值和次梯度:
{ f ( x ) ≥ f x ≥ f ( x ) − ε f x , g ˜ f x ∈ ∂ ε f x f ( x ) , c ( x ) ≥ c x ≥ c ( x ) − ε c x , g ˜ c x ∈ ∂ ε c x c ( x ) , (3)
其中, f x , c x , g ˜ f x 和 g ˜ c x 分别表示函数 f , c 在点x的近似函数值和近似次梯度,误差 ε f x , ε c x ≥ 0 , δ -次微分 ∂ δ f ( x ) 定义如下:
∂ δ f ( x ) = { g ∈ R n : f ( y ) ≥ f ( x ) + 〈 g , y − x 〉 − δ , ∀ y ∈ X } .
根据(3)可得
f ( ⋅ ) ≥ f ( x ) + 〈 g ˜ f x , ⋅ − x 〉 − ε f x , c ( ⋅ ) ≥ c ( x ) + 〈 g ˜ c x , ⋅ − x 〉 − ε c x .
假设每一个估计的误差都是有界的,即存在常数 η f , η c ≥ 0 使得
ε f x ≤ η f , ε c x ≤ η c , ∀ x ∈ X .
为简便,分别用 g ˜ f k , g ˜ c k 表示函数 f , c 在 x k 处的近似次梯度, ε f k , ε c k 表示相应的误差。定义邻近函数:
φ ( x ; x ^ ) : = ω ( x ) − ω ( x ^ ) − 〈 ∇ ω ( x ^ ) , x − x ^ 〉 ,
其中,函数 ω : R n → R 是集合X上系数为 σ ω > 0 可微强凸函数,即
ω ( y ) ≥ ω ( x ) + 〈 ∇ ω ( x ) , y − x 〉 + σ ω 2 ‖ y − x ‖ 2 , ∀ x , y ∈ X .
易知, φ ( x ; x ^ ) ≥ 0 , φ ( x ^ ; x ^ ) = 0 及
〈 ∇ ω ( x ) − ∇ ω ( z ) , x − z 〉 ≥ σ ω ‖ x − z ‖ 2 , ∀ x , z ∈ X .
在实际计算中,可根据X的特殊结构选择适当的 ω ( x ) ,以提高计算效率。
记集合X对应于函数 ω ( x ) 的直径为:
D ω , X 2 : = max { ω ( x ) − [ ω ( z ) + 〈 ∇ ω ( z ) , x − z 〉 ] , ∀ x , z ∈ X } . (4)
因此,可以得到
‖ x − z ‖ 2 ≤ 2 σ ω D ω , X 2 = : Ω ω , X , ∀ x , z ∈ X . (5)
根据函数的非精确信息,定义近似线性化函数:
{ l f k ( ⋅ ) : = f x k + 〈 g ˜ f k , ⋅ − x k 〉 , l c k ( ⋅ ) : = c x k + 〈 g ˜ c k , ⋅ − x k 〉 .
由函数的凸性可得 l f k ( ⋅ ) ≤ f ( ⋅ ) , l c k ( ⋅ ) ≤ c ( ⋅ ) ,并且在点 x k 处有 l f k ( x k ) = f x k , l c k ( x k ) = c x k 成立。定义函数 f ( x ) , c ( x ) 在第k次迭代的多面体模型:
f ^ k ( x ) : = max j ∈ J f k l f j ( x ) , c ^ k ( x ) : = max j ∈ J c k l c j ( x ) ,
其中, J f k , J c k ⊆ { 1 , ⋯ , k } 分别是线性化函数 l f j ( x ) , l c j ( x ) 对应的某些迭代指标构成的集合。根据多面体模型的定义可以得到:
设 f low k ( ≤ f * ) 是问题最优值的一个下界,定义非精确改进函数如下:
h ˜ ( x ; f low k ) = max { f x − f low k , c x } . (7)
用以上函数作为近似最优性判别函数,并采用如下方式记录改进函数当前的最小值和相应的迭代点:
h rec k : = { h ˜ ( x 0 ; f low 0 ) , k = 0 , min { min j ∈ J f k ∩ J c k h ˜ ( x j ; f low k ) , h rec k − 1 } , k > 0 , (8)
x rec k ∈ { x j } j ≤ k s .t . h ˜ ( x rec k ; f low j ) = h rec k , (9)
由(8)和(9)易知 { h rec k } 是单调不增的序列。
设 f lev k 为当前水平值,采用上述邻近函数代替欧氏距离,本文算法每次迭代求解如下子问题:
x k + 1 : = arg min x ∈ X k φ ( x ; x ^ k ) , (10)
其中, x ^ k 为当前稳定中心,水平集 X k 定义如下:
X k : = { x ∈ X : f ^ k ( x ) ≤ f lev k , c ^ k ( x ) ≤ 0 } . (11)
以下引理启发了下界 f low k 的一个更新规则:当 X k 是空集时,可用当前的水平值 f lev k 来更新下界,即令 f low k = f lev k 。
引理1 [
下面将给出子问题(10)的最优解的一些重要性质,其证明是文献 [
命题1:假设约束规格 X k ∩ r i X ≠ ∅ 成立,则 x k + 1 为子问题(10)最优解的充要条件是 x k + 1 ∈ X , f ^ k ( x k + 1 ) ≤ f lev k , c ^ k ( x k + 1 ) ≤ 0 ,并且存在向量 s k ∈ N X ( x k + 1 ) , g ^ f k ∈ ∂ f ^ k ( x k + 1 ) , g ^ c k ∈ ∂ c ^ k ( x k + 1 ) 和 μ f k , μ c k ≥ 0 使得
∇ φ ( x k + 1 ; x ^ k ) + s k + μ f k g ^ f k + μ c k g ^ c k = 0 , μ f k ( f ^ k ( x k + 1 ) − f lev k ) = 0 , μ c k c ^ k ( x k + 1 ) = 0. (12)
此外,聚集线性化
f ¯ a k ( x ) : = f ^ k ( x k + 1 ) + 〈 g ^ f k , x − x k + 1 〉 满足 f ¯ a k ( x ) ≤ f ^ k ( x ) ≤ f ( x ) , ∀ x ∈ X , (13)
c ¯ a k ( x ) : = c ^ k ( x k + 1 ) + 〈 g ^ c k , x − x k + 1 〉 满足 c ¯ a k ( x ) ≤ c ^ k ( x ) ≤ c ( x ) , ∀ x ∈ X . (14)
同时,有
arg min x ∈ X k φ ( x ; x ^ k ) = arg min x ∈ X a k φ ( x ; x ^ k ) (15)
成立。其中,聚集水平集 X a k 定义为 X a k : = { x ∈ X : f ¯ a k ( x ) ≤ f lev k , c ¯ a k ( x ) ≤ 0 } 。
下面给出本文算法的具体步骤:
算法1:
步骤0 (初始化):选取初始点 x 0 ∈ X ,参数 γ ∈ ( 0 , 1 ) ,终止参数 δ Tol ≥ 0 ,束的最大容量 nb ≥ 2 。选取初始下界 f low 0 ≤ f * ,计算初始近似函数值和近似次梯度 ( f x 0 , g ˜ f 0 ) , ( c x 0 , g ˜ c 0 ) 。令 x ^ 0 = x 0 , k = 0 , l = 0 , k ( l ) = 0 , J f 0 = { 0 } , J c 0 = { 0 } 。
步骤1 (更新记录值):分别通过(8)和(9)更新 h rec k 和 x rec k 。
步骤2 (终止测试):如果 h rec k ≤ δ Tol ,则算法终止并输出 x rec k 。
步骤3 (下降测试):如果 h rec k ≤ ( 1 − γ ) h rec k ( l ) ,则令 l : = l + 1 , k ( l ) : = k ,并选取 x ^ k ∈ { x j : j ∈ J f k ∩ J c k } 。
步骤4 (更新水平集):令 f lev k : = f low k + γ h rec k ,更新水平集 X k 。
步骤5 (可行性检测):如果 X k 为非空集,则转到步骤6;否则,转步骤7。
步骤6 (子问题求解):求解(10)产生新迭代点 x k + 1 ,并计算相应的近似函数值和近似次梯度 ( f x k + 1 , g ˜ f k + 1 ) , ( c x k + 1 , g ˜ c k + 1 ) 。令 f low k + 1 : = f low k , x ^ k + 1 : = x ^ k 。
步骤7 (更新下界):令 l : = l + 1 , k ( l ) : = k , f low k : = f lev k ,选择 x ^ k ∈ { x j : j ∈ J f k ∩ J c k } ,返回步骤1。
步骤8 (束管理):如果 | J f k | < nb ,则 J f k + 1 = J f k ∪ { k + 1 } ;否则选择指标集 I f ⊆ J f k , | I f | ≥ 2 ,更新束 J f k + 1 = J f k \ I f ∪ { k + 1 , a k } 。如果 | J c k | < nb ,则 J c k + 1 = J c k ∪ { k + 1 } ;否则选择指标集 I c ⊆ J c k , | I c | ≥ 2 ,更新束 J c k + 1 = J c k \ I c ∪ { k + 1 , a k } 。
步骤9 (循环):令 k : = k + 1 ,返回步骤1。
注1:令 K l 为第l个循环的指标集,由算法可知对任意的 k ∈ K l ,稳定中心 x ^ k 和下界 f low k 不变。因此,对每一个固定的l,序列 { f lev j } j ∈ K l 是非增的。
下面我们分别讨论误差固定不变和随着迭代趋近于零两种情况,即
情形I: ε f k ≡ ε f ≥ 0 , ε c k ≡ ε c ≥ 0 , ∀ k ;
情形II: ε f k → 0 , ε c k → 0 , k → ∞ 。
引理2:假设 lim k → ∞ h rec k ≤ 0 ,则
a) 对于情形I,序列 { x rec k } 的任意聚点都是问题(1)的 ε 最优解,其中 ε : = max { ε f , ε c } ;
b) 对于情形II,序列 { x rec k } 的任意聚点都是问题(1)的最优解。
特别地,如果对某个k,有 h rec k ≤ 0 ,则对于情形I, x rec k 是问题(1)的一个 ε 最优解;对于情形II, x rec k 是问题(1)的一个 ε j k 最优解,其中 ε j k : = max { ε f j k , ε c j k } , j k ( ≤ k ) 是使得 h rec k = h ˜ ( x rec k ; f low j k ) 成立的某个指标。
证明:由 h rec k 的定义(8)和(9)以及X有界,可以得到序列 { h rec k } 单调有界,因此必有极限。故不失一般性,可设序列 { f x rec k } , { c x rec k } 有极限。由假设 lim k → ∞ h rec k ≤ 0 ,可得
0 ≥ lim k ( f x rec k − f low j k ) ≥ lim k ( f ( x rec k ) − ε f j k − f low j k ) ≥ lim k ( f ( x rec k ) − ε f j k − f * ) ,
0 ≥ lim k c x rec k ≥ lim k ( c ( x rec k ) − ε c j k ) .
设 x ¯ 是序列 { x rec k } 的一个聚点,对于情形I,由以上两个不等式可以得到 f ( x ¯ ) ≤ f * + ε f 和 c ( x ¯ ) ≤ ε c ,因此 x ¯ 是问题(1)的 ε 最优解。对于情形II,再次利用以上两个不等式可得 f ( x ¯ ) ≤ f * 和 c ( x ¯ ) ≤ 0 ,故 x ¯ 是问题(1)的最优解。
特别地,如果对某个k, h rec k ≤ 0 成立,类似以上分析可知,对于情形I有: f ( x rec k ) ≤ f * + ε f 和 c ( x rec k ) ≤ ε c ,故 x rec k 是问题(1)的 ε 最优解;对于情形II,有 f ( x rec k ) ≤ f * + ε f j k 和 c ( x rec k ) ≤ ε c j k ,从而 x rec k 是问题(1)的一个 ε j k 最优解。 □
本节将证明算法1的全局收敛性并分析其计算复杂度。记 Λ 为近似次梯度的上界,即 ‖ g ˜ f k ‖ ≤ Λ , ‖ g ˜ c k ‖ ≤ Λ , ∀ k 。由算法步骤2和引理2可知,若 h rec k ≤ 0 ,则算法终止,并且 x rec k 是问题(1)的近似最优解,因此在下面分析中将假设 h rec k > 0 , ∀ k 。下面引理给出相邻两个迭代点之间距离的下界,其证明类似于文 [
引理3:算法1产生的迭代点满足下列关系:
‖ x k + 1 − x k ‖ ≥ 1 − γ Λ h rec k , k > k ( l ) ,
‖ x k + 1 − x ^ k ‖ ≥ 1 − γ Λ h rec k , k = k ( l ) .
证明:对于任意的k和 j ∈ J f k ∩ J c k ,根据子问题 x k + 1 : = arg min x ∈ X k φ ( x ; x ^ k ) 可以得到 x k + 1 ∈ X k 。由 X k 的定义(11)结合(3)式,可得
f x j + 〈 g ˜ f j , x k + 1 − x j 〉 ≤ f lev k ,
c x j + 〈 g ˜ c j , x k + 1 − x j 〉 ≤ 0.
即
f x j − f lev k ≤ 〈 g ˜ f j , x k + 1 − x j 〉 ,
c x j ≤ 〈 g ˜ c j , x k + 1 − x j 〉 .
结合Cauchy-Schwarz不等式可以得到
f x j − f lev k ≤ 〈 g ˜ f j , x k + 1 − x j 〉 ≤ ‖ g ˜ f j ‖ ‖ x k + 1 − x j ‖ ≤ Λ ‖ x k + 1 − x j ‖ .
类似的,可以得到
c x j ≤ 〈 g ˜ c j , x k + 1 − x j 〉 ≤ ‖ g ˜ c j ‖ ‖ x k + 1 − x j ‖ ≤ Λ ‖ x k + 1 − x j ‖ .
再结合 f lev k = f low k + γ h rec k 及 h rec k > 0 ,可得
Λ ‖ x k + 1 − x j ‖ ≥ max { f x j − f low k − γ h rec k , c x j } ≥ max { f x j − f low k − γ h rec k , c x j − γ h rec k } = − γ h rec k + max { f x j − f low k , c x j }
= − γ h rec k + h ˜ ( x j ; f low k ) 由(7)
= ( 1 − γ ) h rec k . 由(8)
当 k > k ( l ) ,则束管理确保 k ∈ J f k ∩ J c k 。故令
下面将证明每一个循环 K l 中的迭代次数是有限的。
引理4:对于任意的 l ≥ 0 ,在第l个循环中的迭代指标 k ( k ∈ K l ) 满足:
k − k ( l ) + 1 ≤ Ω ω , X ( Λ ( 1 − γ ) h rec k ) 2 + 1.
证明:对任意的 k > k ( l ) ,由子问题(10)知 x k = arg min x ∈ X k − 1 φ ( x ; x ^ k − 1 ) ,故由一阶最优性条件可得:
〈 ∇ φ ( x k ; x ^ k − 1 ) , x − x k 〉 ≥ 0 , ∀ x ∈ X k − 1 . (16)
i) 假如在第 k − 1 步到第k步没有束压缩机制,那么根据 f ^ k ( x ) 的定义(6)可知 f ^ k ( x ) ≥ f ^ k − 1 ( x ) , c ^ k ( x ) ≥ c ^ k − 1 ( x ) , ∀ x ∈ R n 。根据注1可得 f lev k ≤ f lev k − 1 ,从而 X k ⊆ X k − 1 。因为 k ∈ K l ,所以有 X k 非空,并且 x k + 1 ∈ X k 。又因为在每个 l 循环中稳定中心不变,即: x ^ k − 1 = x ^ k ,从而可以得到 〈 ∇ φ ( x k ; x ^ k ) , x k + 1 − x k 〉 ≥ 0 。
ii) 若在第 k − 1 步到第k步有束压缩,则聚集指标 a k ∈ J f k , a k ∈ J c k ,故 f ^ k ( x ) ≥ f ¯ a k ( x ) , c ^ k ( x ) ≥ c ¯ a k ( x ) , ∀ x ∈ R n ,从而 X k ⊆ X a k 。由(15)可知 x k = arg min { φ ( x ; x ^ k − 1 ) , x ∈ X a k } ,根据一阶最优性条件有:
〈 ∇ φ ( x k ; x ^ k − 1 ) , x − x k 〉 ≥ 0 , ∀ x ∈ X a k . (17)
类似地,可利用稳定中心在同一个l循环中不变,即 x ^ k − 1 = x ^ k ,并且 x k + 1 ∈ X a k ,结合 (17) 得到 〈 ∇ φ ( x k ; x ^ k ) , x k + 1 − x k 〉 ≥ 0 。又因为 k ∈ K l , h rec k > δ Tol ,算法不终止且
〈 ∇ φ ( x k ; x ^ k ( l ) ) , x k + 1 − x k 〉 ≥ 0.
由 φ ( x ; x ^ k ( l ) ) 是强凸函数,有
σ 2 ‖ x k + 1 − x k ‖ 2 ≤ φ ( x k + 1 ; x ^ k ( l ) ) − φ ( x k ; x ^ k ( l ) ) − 〈 ∇ φ ( x k ; x ^ k ( l ) ) , x k + 1 − x k 〉 ≤ φ ( x k + 1 ; x ^ k ( l ) ) − φ ( x k ; x ^ k ( l ) ) .
从而有
σ 2 ‖ x k + 1 − x k ‖ 2 ≤ φ ( x k + 1 ; x ^ k ( l ) ) − φ ( x k ; x ^ k ( l ) ) .
对上式从 k ( l ) + 1 到k求和,得到:
σ 2 ∑ j = k ( l ) + 1 k ‖ x j + 1 − x j ‖ 2 ≤ φ ( x k + 1 ; x ^ k ( l ) ) − φ ( x k ( l ) + 1 ; x ^ k ( l ) ) . (18)
对不等式(18)左边缩小,结合引理3可得
σ 2 ∑ j = k ( l ) + 1 k ‖ x j + 1 − x j ‖ 2 ≥ σ 2 ∑ j = k ( l ) + 1 k ( 1 − γ Λ h rec j ) 2 ≥ σ 2 ∑ j = k ( l ) + 1 k ( 1 − γ Λ h rec k ) 2 .
对不等式(18)右边放大,由 φ ( x ; x ^ ) 的性质以及(4)可得
φ ( x k + 1 ; x ^ k ( l ) ) − φ ( x k ( l ) + 1 ; x ^ k ( l ) ) ≤ φ ( x k + 1 ; x ^ k ( l ) ) ≤ max x ∈ X { φ ( x ; x ^ k ( l ) ) } ≤ max x , y ∈ X { φ ( x ; y ) } = D ω , X 2 .
于是
D ω , X 2 ≥ σ 2 ∑ j = k ( l ) + 1 k ( 1 − γ Λ h rec k ) 2 = σ 2 ( k − k ( l ) ) ( 1 − γ Λ h rec k ) 2 ,
从而结合(5)有
k − k ( l ) ≤ 2 D ω , X 2 σ ( Λ ( 1 − γ ) h rec k ) 2 = Ω ω , X ( Λ ( 1 − γ ) h rec k ) 2 .
□
以下定理给出了算法1的全局收敛性。。
定理1:假设 δ Tol = 0 且算法不终止,则 lim k h rec k ≤ 0 ,并且
a) 如果 ε f k ≡ ε f ≥ 0 , ε c k ≡ ε c ≥ 0 , ∀ k ,则序列 { x rec k } 的任意聚点是问题(1)的 ε 最优解,其中 ε : = max { ε f , ε c } 。
b) 如果 ε f k → 0 , ε c k → 0 , k → ∞ ,则序列 { x rec k } 的任意聚点是问题(1)的最优解。
证明:首先,类似于文献 [
□
下面给出算法1的计算复杂度。
定理2:设 − ∞ < f low 0 ≤ f * , δ Tol > 0 ,且不考虑步骤3,则算法1执行的迭代次数的上界为:
( 1 + f * − f low 0 γ δ Tol ) ( Ω ω , X ( Λ ( 1 − γ ) δ Tol ) 2 + 1 ) .
证明:根据算法1可知,当 X k 为空集时,最优值 f * 的下界 f low k 增加了 γ h rec k ( > γ δ Tol ) 。即
f * ≥ f low 0 + γ h rec 1 + ⋯ + γ h rec k ≥ f low 0 + γ δ Tol + ⋯ + γ δ Tol .
因为 f low 0 是有限的,所以 X k 出现空集的次数也是有限的,令N为出现空集的次数,即N是有限的。因此, N ⋅ γ δ Tol ≤ f * − f low 0 ,从而有:
N ≤ f * − f low 0 γ δ Tol .
若算法在第k次迭代不终止,有 h rec k > δ Tol ,根据引理4可知算法中每个 K l 至多有 Ω ω , X ( Λ ( 1 − γ ) h rec k ) 2 + 1 次迭代。那么有:
Ω ω , X ( Λ ( 1 − γ ) h rec k ) 2 + 1 ≤ Ω ω , X ( Λ ( 1 − γ ) δ Tol ) 2 + 1.
令 k δ Tol 是使得 h rec k > δ Tol 成立的最大指标集,那么
k δ Tol ≤ ( 1 + f * − f low 0 γ δ Tol ) ( Ω ω , X ( Λ ( 1 − γ ) δ Tol ) 2 + 1 ) .
□
本文提出了一个基于非精确数据的带有非欧氏距离的约束水平束方法,该方法结合非精确信息并引入Bregman距离代替传统的欧氏距离,充分利用可行集的几何集合,加快算法的收敛速度,减少计算量。最后证明了算法的全局收敛性并分析了迭代复杂度。
获国家自然科学基金项目(11761013,71861002);广西自然科学基金项目(2018GXNSFFA281007;2017GXNSFBA198238)资助。
李艳妮,郑海艳,唐春明. 非光滑约束优化基于非精确数据的改进水平束方法A Modified Level Bundle Method with Inexact Data for Nonsmooth Constrained Optimization[J]. 应用数学进展, 2019, 08(09): 1530-1538. https://doi.org/10.12677/AAM.2019.89179
https://doi.org/10.1093/imanum/5.1.111
https://doi.org/10.1007/s10107-007-0123-7
https://doi.org/10.1007/BF01585555
https://doi.org/10.1007/s101070100244
https://doi.org/10.1007/s10589-013-9610-3
https://doi.org/10.1007/s101070050056
https://doi.org/10.1007/s10107-004-0553-4