1. 引言
张量(多维数组)是向量和矩阵的推广,在计算机视觉、数据挖掘、信号处理和机器学习等众多领域日益普及。基于其多线性代数性质,张量能够充分利用自身结构,为理解多维数据提供更优视角并提升精度。然而,实际观测到的张量数据可能存在信息缺失与损坏的情况,这促使我们深入研究鲁棒张量补全(Robust Tensor Completion)问题,即少量可用元素受噪声污染的情形。
与矩阵不同,张量的秩存在多种定义。常用的有CANDECOMP/PARAFAC(CP)秩和Tucker秩[1]。然而,计算给定张量的CP秩是NP-hard问题。Liu等人提出用张量展开矩阵的核范数之和(SNN)近似Tucker秩来解决低秩张量补全问题。尽管SNN计算简便,但Romera-Paredes等人证明其并非Tucker秩元素之和的最紧凸包络。张量的矩阵化可能破坏张量数据的内在结构与相关性。基于张量奇异值分解(tSVD)框架,Kilmer等人[2]提出了管秩和张量多秩定义,Semerci等人发展了新的管核范数(TNN)。本文主要探讨tSVD这种新的张量分解范式,因其在张量扁平化时可避免信息丢失。近年来,管秩和TNN广泛应用于张量恢复问题,因其是张量多秩
范数的最紧凸松弛。也有诸多研究采用张量多秩函数的下凸包络逼近来处理张量秩问题。
受文献[3]中非凸矩阵秩逼近成果启发,在张量框架下,我们通过t-SVD提出加权张量Schatten-p范数(t-Schatten-p),以寻求更佳逼近、减少张量核范数的局限性。我们构建基于t-SVD的通用非凸优化框架,有效处理张量秩逼近,涵盖张量鲁棒补全问题,并具备可行的收敛算法。主要挑战之一是基于增广拉格朗日乘子设置确保优化过程收敛。Lin等人证明了增广拉格朗日乘子算法对凸目标函数的收敛性。
本文的主要贡献总结如下:
1) 在张量框架下,针对多维数据集在变换域开发了新的加权t-Schatten-p范数正则化器,对于三维数据分解中低秩和稀疏部分的恢复似乎是可行的。
2) 在群稀疏张量字典学习的框架下,我们在定理2中证明了加权t-Schatten-p范数正则化算子在寻找低秩分量方面是可处理的。更具体地说,变换域中张量奇异值的稀疏性意味着原始张量的管秩较低。
3) 在非凸框架下,提出了一种基于对称Gauss-Seidel的多块交替方向乘法器(sGS-admm)来解决鲁棒张量补全问题[4]。
4)实验结果表明,我们提出的方法在人脸恢复中有较好的性能。
2. 预备知识
定义1:给定张量
和张量
,
定义[5]为
(1)
其中
,“
”是标准的矩阵乘积。
基于
的定义,我们给出了变换张量SVD的如下定义。
定理1:给定张量
,其变换张量SVD定义如下:
(2)
其中
是酉张量,即
,其中
的对角线元素皆为1,
是对角张量[1]。对于矩阵
,设
为其依次递减的奇异值,则矩阵
的核范数定义为
。若把奇异值看成一个向量
,然后
,即矩阵的核范数为其奇异值向量的
范数。一般的,设
,我们考虑
,当
,我们得到
,可以看出当
,
可以更好地逼近矩阵的秩函数,由此我们引出下述变换t-Schatten-p范数。
定义2:张量
的变换t-Schatten-p范数定义为:
(3)
其中
,
是matlab符号。
定理2:对于一个三阶张量
,其变换张量SVD为:
。对于正则化问题:
,其最优解为
。对于
,
,其前向切片分别是对角矩阵
和
(
),设
,
,
,则可以通过下式得到
:
(4)
3. 鲁棒张量补全的模型建立
假设存在一个观测到噪声数据张量
,噪声数据张量
是由一个未知的稀疏噪声张量
破坏一个未知的低秩张量
得到的。则鲁棒张量补全模型可表示为:
(5)
式中
为正则化参数,
为非零项个数,
为张量平均秩。
是一个线性算子,
是一个索引集,则
(6)
然而秩和零范数的优化问题一般是NP-hard的。我们通常用
范数来得到稀疏解。对于低秩解,我们使用它的等效替代物:变换t-Schatten-p范数来求解它。
令
,则问题(5)可改写为:
(7)
其增广拉格朗日函数可定义为:
(8)
是拉格朗日乘子,
是惩罚参数。设
。因此上述优化问题的sGS-admm迭代如下:
(9)
(10)
(11)
(12)
(13)
其中
为步长。接下来我们依次求解各迭代优化问题。
的迭代求解式为:
(14)
子问题(10)可以表述为:
(15)
的最小值由
给出。
有定理2给出。
的求解公式为:
(16)
其中
,
是矩阵点积运算。
的表达式如下:
(17)
4. 数值实验
4.1. 参数设置
将我们的方法记为WSNRTC,我们选取的对比方法为RTC-TNN,RTC-TNN(F)和RTC-TNN(D)分别表示为选取了傅里叶变换矩阵[6]和基于数据的酉变换矩阵为变换矩阵。
对于一个大小为
的张量数据,我们定义观测值的采样率为
,峰值信噪比[7] (PSNR)用来衡量估计张量的质量,定义为:
(18)
和
分别是原始张量
的最大元素和最小元素,
是恢复之后的张量。稀疏噪声强度记为
。我们将参数
设置为
,在下面的实验,当选择傅里叶变换矩阵时,参数a从{1.1, 1.3, 1.7, 1.8, 2}中选择,选取酉变换矩阵时,参数a从{10, 15, 18, 20, 23, 25, 28, 30}中选择,并且我们设置
,
,权重
通过
计算得到,其中
,
,
,
是
的第
个奇异值,
,
。
4.2. 人脸数据恢复
YaleB人脸数据集包含28个受试者在9种姿势和64种光照条件下的16,128张图像。我们选择第1和第2个受试者的前64帧作为本小节的数据集,则测试张量的大小为192 × 168 × 64。
在图1中,我们展示了两名受试者在采样率
,稀疏噪声强度
条件下的实验结果的第10帧。其中Original为原始图像,Sampled为采样后的图像,从中可以看出我们的方法在选取酉变换时,恢复的结果在眼部细节和面部阴影比其他方法恢复的结果更好。
Figure 1. Comparison of the recovery effects of the 10th frame under different methods under the condition of SR = 0.3,
图1. 在SR = 0.3,
条件下第10帧在不同方法下的恢复效果对比
在表1中我们展示了YaleB人脸数据在不同方法在采样率0.3时,不同噪声强度(
)下的恢复结果,我们用PSNR值来评估恢复效果。从表中可以看出,我们的方法比RTC-TNN恢复的结果更好,两种方法都在选取酉变换矩阵时得到的更好的结果,并且WSNRTC在选取傅里叶变换时得到的结果比RTC-TNN选取酉变换矩阵时得到的结果更好,进一步说明我们的方法是有显著优势的。
Table 1. Comparison of PSNR values of the recovery results of two subjects (Subject 1, Subject 2) under different conditions
表1. 两名受试者(Subject 1, Subject 2)在不同条件下的恢复结果的PSNR值对比
|
SR |
|
RTC-TNN(F) |
RTC-TNN(D) |
WSNRTC(F) |
WSNRTC(D) |
Subject 1 |
0.3 |
0.1 |
26.6958 |
28.6409 |
28.3630 |
29.7715 |
0.2 |
24.3502 |
26.1680 |
27.5982 |
28.6926 |
0.3 |
22.3206 |
24.5449 |
25.8110 |
27.2261 |
Subject 2 |
0.3 |
0.1 |
25.9255 |
28.1704 |
28.2868 |
29.6994 |
0.2 |
22.5431 |
25.3941 |
27.4091 |
28.9150 |
0.3 |
21.7234 |
23.7045 |
25.8917 |
27.2264 |
5. 结束语
针对鲁棒张量补全问题,结合Schatten-p范数,提出了加权的张量Schatten-p范数,结合sGS-admm优化器求解该非凸问题,在人脸数据恢复上取得优越效果。在后续工作中如何构建基于数据的自适应权重选择成为另一个有趣的话题。