1. 引言
随着多智能体系统协调技术的快速发展,布式优化在分布式机器学习[1] [2]、传感器网络[3]、多智能体系统[4] [5]、电力系统控制[6]等诸多领域显示出巨大的潜力。考虑一个由n个节点组成的无向连接网络,每个节点都有私有的局部目标函数。分布式优化的全局目标函数是对所有局部目标函数的平均值求最小。分布式优化算法的挑战在于如何通过局部计算和通信使整个系统协同工作以找到全局最优解或近似最优解。局部计算是指每个节点仅根据局部目标函数更新自己的变量,局部通信是指每个节点只与相邻节点交换信息。
许多分布式优化算法已经被开发出来。由于计算成本低、易于实现,分布式梯度型方法已经成为最受欢迎的算法之一。早期的分布式梯度下降(DGD)方法[7] [8]可以使用衰减步长,缓慢地收敛到最优解。当使用固定步长时,DGD可以实现线性收敛,但是只能收敛到最优解的邻域。因此,当不需要高精度时,固定步长的DGD方法是不错的选择。文献[9]-[11]等结合了更多的技术,可以线性收敛到最优解,这些技术包括两次连续迭代的差值[9]、梯度跟踪技术[10]和多步一致性[11]等,但是这些技术会带来更多的计算和通信负担。当前,有一类加速方案是利用前几次迭代的梯度来更新变量,比如乐观梯度下降–上升(OGDA)方法[12]和Hessian采样的惯性梯度算法(IGAHD) [13]通过前两次迭代的梯度差来更新变量。此外,文献[14]中的Anderson加速梯度下降法(AA-PGA)通过使用前几次迭代的梯度的凸组合来更新变量。在文献[15]中,Tang等人采用了改进的分布式Anderson加速法(ELLADA)来减少迭代次数,加速收敛。近期,Zhang等[16]人引入了一种扩展的分布式梯度下降方法,即沿着前两次迭代的梯度和的方向更新变量。对于分布式强凸优化,当步长小于给定上界时,扩展的分布式梯度下降方法可以实现线性收敛性。数值实验也表明,使用扩展梯度的梯度下降方法比传统的梯度下降方法具有更好的搜索方向。在文献[17]中,Wu等人提出了一种非精确的多更新单组合(MUSIC)策略的分布式优化方法并证明了其线性收敛性,然后基于非精确的MUSIC框架,结合局部梯度矫正技术,设计了一种精确的MUSIC加速算法,该方法可以实现快速的精确收敛以及高效通信。多更新的思想来源于集中式局部更新随机梯度下降方法(局部更新SGD) [18],它允许节点执行多个局部更新,然后定期进行组合。众所周知的联邦平均(FedAvg)算法[19]就是局部更新SGD的衍生物,专门为不平衡的参与设备设计。
受扩展梯度法具有更好的搜索方向的启发,结合多更新单组合策略(MUSIC),针对无向网络上的分布式优化问题,我们提出了一种扩展的分布式多更新单组合算法(ExtendMUSIC)。具体来说,该方法沿着前两次迭代的梯度和的方向下降,允许每个节点执行多个局部更新,然后定期进行组合。对于光滑强凸函数,我们证明了ExtendMUSIC能够线性收敛到最优解的邻域。最后,数值实验验证了ExtendMUSIC的有效性。
本文剩余部分组织如下:第二章主要介绍了分布式优化问题以及我们所提出的方法。第三章提供了ExtendMUSIC的收敛性分析。第四章进行数值实验验证算法的有性。最后,我们对全文进行总结并提出展望。
本文主要符号如下:为了更好地理解这项工作,在整个论文中,所涉及的矩阵和向量分别用大写字母和小写字母表示,标量用标准字体表示,其中,
表示向量x的转置,算子
表示克罗内克积。
表示向量的欧氏范数和矩阵的谱范数,
表示不超过x的最大整数,其在欧几里得空间中的内积用
表示。
2. 问题描述及扩展的先适应再结合分布式梯度下降方法
本章首先介绍分布式优化问题的数学模型,并给出了主要假设。然后,简要回顾了扩展的分布式梯度下降方法和带有多更新单组合策略(MUSIC)的非精确分布式优化算法。最后,提出了扩展的分布式多更新单组合算法。
2.1. 问题描述
我们关注一个由n个节点组成的无向网络,这个网络可以用无向图
来表示,其中V表示节点的集合,E表示边
的集合,其中
。如果
,则i与j之间的信息可以相互传递。定义权重矩阵
,其中
表示智能体i传递给其邻居j的信息权重。分布式优化问题可以表述为:
(2.1)
其中
是一个连续可微函数。接下来,我们给出以下几个基本假设。
假设1:(光滑性)局部目标函数
是L-光滑的,也就是说,对任意的
,有
(2.2)
假设2:(强凸性)局部目标函数
是
强凸的,也就是说,对任意的
,有
(2.3)
假设1和2中的常数L和
满足
。假设1和2表明全局目标函数f也是L-光滑和
-强凸的,因此,f有唯一最优解,记为
本文中设
。
假设3:权重矩阵W具有下列性质:
如果
,那么
。对任意的
,
。否则,
。
权重矩阵W是双随机的,也就是说对任意的
,
。
记W的第二大奇异值为
,
可以用来表示图参数[10]。对任意的
,
,其中
。
假设4:(梯度有界) 假设
在
处的梯度是有界的,即对于所有
,有
2.2. 扩展的分布式梯度下降方法
具体来说,扩展的非精确MUSIC算法由两个循环迭代组成,即节点内的计算循环和节点之间通信循环。下面,我们将算法过程中的总迭代次数表示为K,每K个局部更新步骤进行一次组合,由于通信只发生在组合步骤中,因此每个节点的通信轮数等于
,其中一轮意味着节点i向其相邻节点发送当前估计值
,并接收
,其中
。设
是组合步骤的集合,即
。因此,存在
,对于任意
,满足
。我们可以用下面的迭代来描述扩展的非精确MUSIC算法:
(2.4)
如果我们引入中间变量
,那么(2.4)可以重写为:
(2.5)
这对后续的收敛分析很有用。其中,
是扩展的梯度下降在
处的结果。值得注意的是,当
时,扩展的非精确MUSIC方法可以被简化为使用扩展梯度的先适应再结合(ATC)方法,即
3. 收敛性分析
为方便记述,我们引入以下在分析中使用的变量:
,
以及
。
3.1. 关键引理
下面,给出几个关键引理,以建立与网络最优性间隙
相关的一般动力系统。
首先,求出一步扩展的梯度下降((2.4)中第一个等式)的有界结果,这为后面的应用提供了一个重要的关系式。
引理1:在光滑性和强凸性的假设下,对于一步扩展的梯度下降((2.4)中第一个等式),如果步长
满
足
,有
(3.1)
其中,对任意节点i,
以及
,
。
证明:基于(2.4)中第一个等式以及
和
的定义,有
(3.2)
首先求
的界。
(3.3)
其中第一个不等式是根据
这一事实得到,第二个不等式是根据
的凸性得到的,最后一个不等式基于
的L-光滑性得到的。
接下来,求出
的界。
(3.4)
其中在第二个等式中我们用到了
。根据
-强凸性,有
(3.5)
(3.6)
根据AM-GM不等式,有对任意向量a以及b,
。因此,下式成立,
(3.7)
(3.8)
将(3.5)~(3.8)代入到(3.4),有
(3.9)
结合
以及
的界(3.3),可以求出
的界。
(3.10)
根据
的定义,将
重写为
(3.11)
下面,求出
的界,有
(3.12)
其中,第一个不等式是基于
的凸性,第二个不等式是基于下面这一事实得到的,对任意向量
以及
,有
。在第三个不等式中,使用了
的L-光滑性。如果
(i.e.,
)成立,那么根据
这一事实,C可以被进一步限定为:
(3.13)
基于
,将(3.13)代入到(3.11),有
(3.14)
同理,
可以化简如下
(3.15)
其中,
(3.16)
将(3.10)以及(3.14)~(3.16)代入(3.2)可以得到(3.1)结果。证毕。
接下来,约束不等式右边的第二项和第三项。
引理2:在有界梯度的假设下,对于扩展的非精确MUSIC方法的
,有
(3.17)
其中,
表示一次组合时间,对任意的k,满足
。
证明:首先,在
的情况下,由于
。基于组合策略((2.5)中的第二个等式),不等式(3.17)恒成立。其次,可以将
写为
(3.18)
对于从
到
的内循环迭代,有
(3.19)
对(3.19)求和得出
(3.20)
根据梯度有界假设,我们可以得出
(3.21)
通过对(3.19)进行加权求和,可以得到
(3.22)
用同样的求和以及二次正则的方法,我们同样可以得到
(3.23)
由于
,将(3.23)重写为
(3.24)
把(3.21)和(3.24)代入(3.18),证明完成。
在确定
的界之前,我们还要引入一个有界的假设。
假设5:对于扩展的非精确MUSIC (2.5)中的任意迭代
,任意两个代理i和j之间的偏差都是有界的,即
,其中
是一个很小的非负常数。
先前的许多研究都清楚地表明,由组合(共识)步骤((2.5)中的第二个等式)生成的所有迭代点的估计值之间的差值几乎肯定为零,也就是说:当网络连通性,双随机权重
和有界梯度假设成立时,
的概率为1。因此,有限的
是一个合理的假设。从而,我们可以得到下面的引理。
引理3:在有界假设条件下,对于扩展的非精确MUSIC算法(2.5),对任意
以及
,
是有界的,可以表述为下式:
(3.25)
(3.26)
证明:注意到,对于网络上的任意两个代理i和j,
(3.27)
对于(3.27)右边的第二项,有
(3.28)
其中我们使用了不等式(3.24)和有界假设。将(3.17)和(3.28)代入(3.27)即可得到,
下面,求出
的界。
(3.29)
证毕。
3.2. 收敛性结果
最后,可以得到扩展的不精确MUSIC的收敛结果如下。
定理1:当假设1~5均成立且步长满足
时,扩展的非精确MUSIC方法(2.5)在均方意义上线性收敛到最优解的邻域,即对任意的
,有
(3.30)
其中
(3.31)
以及
。
证明:众所周知,不管是
还是
,
总是成立的。因此,结合引理1~3,我们有
(3.32)
为方便起见,定义
,还可以将(3.32)写成
(3.33)
从
到
通过递归应用(3.33),有
(3.34)
或者
(3.35)
其中
,
。通过递归使用(3.35) t次,我们得到
(3.36)
其中
(3.37)
当
时,我们可以得出结论:在标准共识策略下,局部估计值之间渐近地达成了共识(即
)。此外,为了简化计算,我们还在(3.33)中使用了
,从而得到
(3.38)
(3.39)
以及
(3.40)
证毕。
定理1表明,扩展的非精确MUSIC方法以
的速率线性收敛,收敛速度分别随E和
的增大单调递增和单调递减,直到达到误差邻域,且误差邻域大小为
(3.41)
当
时,扩展的非精确MUSIC会退化为使用扩展梯度的ATC版本,收敛速率为
,渐近误差大小为
。
注:(
和E的选择) 一方面,根据定理1,局部更新的频率E没有限制,这意味着E可以取一个大的值来加速收敛。另一方面,过大的E值会显著扩大误差邻域的大小。因此,参数E在平衡收敛速度和精度之间的权衡方面起着类似于步长
的作用。因此,通过选择一个略大于1的E(例如2,3,4)和较小的步长,就可以实现收敛速度和精度的双赢。这有效地解决了传统优化技术(例如DGD方法)长期存在的挑战。
4. 数值实验
在本节中,我们通过解决二进制的逻辑回归学习分类问题来测试扩展的非精确MUSIC的性能。每个节点有一个如下局部目标函数
(3.42)
其中
为特征向量,
为对应的标签。利用“letter”数据集和平均度为4的Erdos-Renyi模型来生成连接网络,使用第二个和第四个标签将“letter”数据子集划分为
个节点,其中每个节点接收
个维度为
的训练样本。在这个问题中,由于最优解
是未知的,我们用一个非常小的步长运行集中式梯度下降迭代2 × 105次近似求出
。
从图1中可以看出,当迭代过程中步长固定(
)时,参数E的作用与步长
类似,即E或
越大(越小)收敛速度越快(越慢),精度越低(越高)。这样验证了ExtendMUSIC框架可以在速度和精度之间实现平衡,例如,既可以实现快速的速度,又可以实现良好的精度。
Figure 1. Effect of step size and E on the performance of the algorithm ExtendMUSIC. (a) The effect of different E on algorithm performance with a constant step size; (b) The effect of different step sizes on algorithm performance with a fixed E
图1. 步长和E对算法ExtendMUSIC的性能影响。(a) 固定步长下,不同的E对算法性能的影响;(b) 固定E下,不同的步长对算法性能的影响
从图2中可以看出,在相同步长下(
),使用扩展梯度的ExtendMUSIC方法比不使用扩展梯度的MUSIC方法可以更快找到非精确解,同理,ATC方法也是。此外,在相同步长下(
),基于多更新单组合策略的方法比不使用多更新单组合策略的方法可以实现更快收敛。
Figure 2. The performance comparison of different methods with the same step size
图2. 相同步长下,不同方法的性能比较
5. 总结与展望
本文首先介绍了一种基于多更新单组合策略的分布式扩展梯度方法ExtendMUSIC。然后,建立了该方法的线性收敛性。最后,通过数值算例验证了该方法的收敛性以及不同的组合次数E对算法的影响,并与现有的经典梯度方法进行了比较。在未来,这项工作中使用的加速技术可以应用于更多的优化问题。