基于低秩矩阵分解的视频前景目标提取问题研究
Research on the Video Prospect Objective Extraction Problem Based on Low-Rank Matrix Factorization
摘要:监控视频在安防领域和视频内容理解中具有重要作用,而准确提取监控视频中的前景目标对于实现有效的视频内容理解、事件检测和场景分析至关重要。然而,监控视频通常面临着复杂、动态的背景干扰以及目标的多变性,这给前景目标提取带来了一定的挑战。针对这一问题,本文总结了3种监控视频前景目标的提取与处理方法,并对其进行了研究与实现。
Abstract:Surveillance video plays an important role in the field of security and video content understanding, and the accurate extraction of the prospect goals in surveillance video is crucial to achieving effective video content understanding, event detection and scene analysis. However, surveillance video is often faced with complex and dynamic background interference as well as variability of targets, which brings some challenges for foreground target extraction. To solve this problem, this paper summarizes the extraction and processing methods of three surveillance video prospect targets, and studies and realizes them.
文章引用:汪嘉辉, 屈鑫宇, 王长鹏. 基于低秩矩阵分解的视频前景目标提取问题研究[J]. 应用数学进展, 2024, 13(7): 3227-3240. https://doi.org/10.12677/aam.2024.137309

1. 引言

监控摄像头在中国安防产业中的地位日益凸显,其在“平安城市”建设中的重要性不言而喻。随着技术的进步和需求的增长,监控摄像头的数量不断增加,各地区的密度也在不断提升。以北京、上海、杭州为例,这些城市的监控摄像头数量已经达到了惊人的水平,为城市安全提供了强大的支持。

随着监控摄像头数量的增加,及时有效地处理监控视频的信息变得愈发重要。自动处理与预测技术在这一领域的应用日益广泛,涉及到信息科学、计算机视觉、机器学习、模式识别等多个领域。其中,有效、快速地抽取出监控视频中的前景目标信息成为了关键问题之一。

这一问题的挑战在于监控视频往往具有复杂、多变、动态的背景,使得移动前景目标的分离变得异常困难。然而,一旦这一难题得到有效解决,技术得到广泛应用,将对各种视频处理任务提供巨大的辅助。以筛选与跟踪夜晚时的罪犯为例,预先提取视频前景目标可以帮助排除不包含移动前景目标的视频画面,从而提高了公安人员的辨识与办案效率。本项目通过MATLAB实现了分别使用单高斯法[1][2]、交替方向法[3][4]和混合高斯法[5][6]提取、处理并输出视频的画面。我们对获取的视频资源进行了一些测试,发现在前景目标较为复杂的情况下,需要使用混合高斯法并不断调整相关参数才能得到较为合适的结果,并且用混合高斯法得到的结果相比单高斯法和交替方向法更加优良,提取的前景目标更加清晰,噪声更小,鲁棒性更强。但在画面较为稳定、复杂度不是很高的情况下,可以使用单高斯法和交替方向法,减少计算资源的浪费。

目前,这种技术已经被广泛应用于各种领域,包括视频目标追踪、城市交通检测、长时场景监测、视频动作捕捉、视频压缩等。随着技术的不断进步和应用场景的拓展,监控摄像头将继续在中国安防领域扮演着至关重要的角色,为城市的安全和稳定提供坚实的保障。

2. 交替方向法

2.1. 交替方向法应用于低秩矩阵分解模型的原理

在提取并处理视频画面时,通常会应用MATLAB的videoreader函数来读取视频的每一帧画面,这些画面将由黑—灰—白的连续变化的灰度值表示,灰度值的范围为0⁓255,表示亮度从深到浅,对应图像中的颜色为从黑到白,再将对应的灰度值进行排列形成数据矩阵。但由videoreader函数提取到的未经处理的数据矩阵常常会含有大量噪声,此时形成的矩阵由低秩矩阵和稀疏误差组成,将该低秩矩阵提取出即可将得到所需要的前景信息。

首先需要建立低秩分解模型。一般认为,给定的数据矩阵D通常具有低秩结构或者近似低秩,但是由于存在随机幅值任意大但分布稀疏的误差,这些误差破坏了原始数据的低秩性。为了恢复矩阵D的低秩特性,需要将矩阵D分解为两个矩阵之和,即 D = A + E ,其中矩阵AE都是未知的,但A是低秩的。当矩阵E的元素服从独立同分布的高斯分布时可以使用经典的主成分分析(Principal Component Analysis, PCA)[7]来得到最优的矩阵A,即解决以下最优化问题:

min A , E E F , s .t . r a n k ( A ) r , D = A + E ,其中 E F = ( i = 1 n j = 1 n e i j 2 ) 1 2

E为稀疏的大噪声矩阵时,该优化问题问题转化为下列优化问题:

min A , E ( r a n k ( A ) , E 0 ) , s .t . D = A + E ,其中 E 0 = # { E i j 0 }

此时引入拉格朗日乘子λ,将上述双目标优化问题转换为单目标凸优化问题:

min A , E r a n k ( A ) + λ E 0 , s .t . D = A + E

对这个问题直接求解会很困难,因此选择采用凸松弛的方法来近似求解。凸松弛方法的基本思想是将原始问题进行放松,转化为一个更容易求解的凸优化问题。使用凸松弛的具体方法是采用nuclear norm (核范数)作为低秩矩阵A的近似,以及范数 E 1 作为稀疏矩阵E的近似,从而将这个问题转化为:

min A * + λ E 1 , s .t . D = A + E

其中 A * 表示: A * = i σ i σ i 是矩阵A的奇异值。

针对于以上凸优化问题需要采用交替方向法(Alternating Direction Method, ADM)来解决。构造增广拉格朗日函数并引入软阈值算子与奇异值阈值算子,其中AEY需要迭代求解:

l ( A , E , Y , μ ) = A * + λ E 1 + Y , D A E + μ 2 D A E F 2

{ A k + 1 = D μ k 1 ( D E k + Y k / μ k ) E k + 1 = S λ μ k 1 ( D A k + 1 + Y k / μ k ) Y k + 1 = Y k + μ k ( D A k + 1 E k + 1 )

D ε ( Q ) = arg min X ε x * + 1 2 X Q F 2 , S ε ( Q ) = arg min X ε x 1 + 1 2 X Q F 2 .

2.2. 交替方向法的一些应用成果(图1~6)

Figure1.Original picture 1

1.原图1

Figure2.Foreground picture 1

2.前景图1

Figure3.Original picture 1

3.原图2

Figure4.Foreground picture 2

4.前景图2

Figure5.Original picture 3

5.原图3

Figure6.Foreground picture 3

6.前景图3

2.3. 交替方向法的优缺点

交替方向法是一种很好的优化求解算法,特别适用于带有分块结构或者含有凸二次约束的优化问题。它具有以下的一些优点和缺点:

优点:

1) 易于实现:ADM是一种相对简单的迭代算法,易于理解并通过编程实现。它将原始优化问题分解为多个子问题,并通过交替迭代来求解这些子问题。并且在视频画面较为简单的场景中,使用效果好,占用的计算资源较少。

2) 适用范围广泛:ADM可以应用于各种类型的优化问题,包括凸优化、非凸优化、线性规划、二次规划等。

缺点:

1) 收敛速度慢:在一些情况下ADM的收敛速度会比其他优化算法慢。尤其是在问题具有非凸性或者高度耦合的情况下,可能需要更多的迭代次数才能收敛。尤其是在视频画面较为复杂时,若迭代次数较少,则会影响最终的提取结果。

2) 参数敏感性:ADM中的一些参数(如惩罚参数、拉格朗日乘子)对算法的性能和收敛性具有一定的敏感性。若参数的选取不合适,则提取到前景目标的效果就不够理想,因此选择合适的参数很重要,通常需要一定的经验和大量的调试。

以下这几幅图举例,惩罚参数和拉格朗日乘子的选取尤为重要(图7~12)。

Figure 7.Original picture 4

7.原图4

Figure 8.Foreground picture 4-a

8.前景图4-a

Figure 9.Foreground picture 4-b

9.前景图4-b

Figure10.Foreground picture 4-c

10.前景图4-c

Figure11.Foreground picture 4-d

11.前景图4-d

Figure12.Foreground picture 4-e

12.前景图4-e

图8⁓12展示了在交替方向法选择的参数不同时,同一张原图提取到的前景目标效果不同,甚至相差较大,那么得出参数的大致范围并选择一个合理的参数则非常重要。下表展示了各自的参数(表1)。

Table 1.Foreground picture of the ADM extracted with different parameters

1.不同参数的ADM提取的前景画面


图8


图9


图10


图11


图12


增广拉格朗日乘子λ

1.55

1.65

1.55

1.55

1.55

惩罚因子ρ

2.00

2.00

2.05

2.00

2.00

更新率

0.05

0.05

0.05

0.06

0.04

很明显地能看到,仅仅是对惩罚因子和更新率进行了微小的调整,提取的视频画面前景目标截然不同;而增广拉格朗日乘子系数的变化同样会影响到提取到的前景目标的效果。经过大量调参、试验之后得到参数的大致范围(表2)。

Table2.The approximate range of the four parameters

2.四个参数的大致范围


增广拉格朗日乘子λ

惩罚因子ρ

更新率

收敛容差

正常范围

0.50⁓1.80

1.85⁓2.15

0.05⁓0.15

106⁓103

综合来说,ADM是一种有效的优化算法,特别适用于分布式环境和带有分块结构的优化问题。然而,在使用时需要考虑视频画面的复杂程度,并注意参数选择和收敛性的问题。需要注意的是,在复杂环境下如多前景目标、摄像头晃动等情况中的效果需要改进优化,或采用其他方法建模。

3. 单高斯法

3.1. 单高斯法的原理

单高斯法是一种简单而有效的图像处理方法,特别适用于背景单一不变的情况。其优势在于简便易行、计算所耗资源少,采用参数迭代的方式,避免了每次都需重新建模这些繁琐步骤。因此,对于那些不包含动态背景、摄像头稳定的且画面较为简易的监控视频,单高斯法是一种较为合适的前景目标提取方法。

单分布高斯背景模型的特征是,对一个背景图像,认为特定像素亮度的分布满足高斯分布,即对背景图像I,(x,y)点的亮度满足:

I ( x , y ) ~ N ( x ; μ , d ) N ( x ; μ , d ) = 1 ( 2 π ) n | d | exp [ 1 2 ( x μ ) T d 1 ( x μ ) ]

那么显然,背景模型的每个像素属性包括两个参数:平均值 μ 和方差d,则对于一幅给定的图像I,如果它满足前景阈值的条件则认为该点是前景目标点,反之该点就是背景点。随着视频时间的变化,背景图像也会发生缓慢的变化,因此我们要采用不断更新每个像素点的参数:

exp { [ I ( x , y ) μ ( x , y ) ] 2 2 d 2 } > T ,其中T为前景阈值。

μ ( x , y , t + 1 ) = a μ ( x , y , t ) + ( 1 a ) I ( x , y )

其中a表示更新参数即背景变化的快慢。假设图像中的每一个像素点的颜色值出现的概率服从高斯分布。令 I ( x , y , t ) 作为像素点(x,y)在t时刻的像素值,则高斯分布与背景建模的关系为下式:

p ( I ( x , y , t ) ) = η ( x , μ t , σ t ) = 1 σ 2 π exp ( ( x μ ) 2 2 σ 2 )

其中, μ t , σ t 分别为t时刻该像素服从的高斯分布的期望值与标准差,p为概率密度函数。

3.2. 单高斯法实现的流程与成果

单高斯模型算法实现的流程如下:

Step1用第一帧图像数据初始化背景模型,其中std_init通常设置为10。

μ 0 ( x , y ) = I ( x , y , 0 ) σ 0 ( x , y ) = std_init

Step2检测前景与背景像素。

背景像素检测公式:

| I ( x , y , t ) μ t 1 ( x , y ) | < λ σ t 1 λ 为比较系数。

前景像素检测公式:

| I ( x , y , t ) μ t 1 ( x , y ) | λ σ t 1

Step3 μ t , σ t , σ t 2 背景值进行更新:

μ t ( x , y ) = ( 1 a ) μ t 1 ( x , y ) + a I ( x , y , t ) σ t 2 ( x , y ) = ( 1 a ) σ t 1 2 ( x , y ) + a [ I ( x , y , t ) μ t ( x , y ) ] 2 σ t ( x , y ) = σ t 2 ( x , y )

Step4返回Step 2直至完成。

以下为单高斯模型提取视频前景目标的成果(图13~21):

Figure13.Original picture 5

13.原图5

Figure14.Foreground picture 5

14.前景图5

Figure15.Background picture 5

15.背景图5

Figure16.Original picture 6

16.原图6

Figure17.Foreground picture 6

17.前景图6

Figure18.Background picture 6

18.背景图6

Figure19.Original picture 7

19.原图7

Figure20.Foreground picture 7

20.前景图7

Figure21.Background picture 7

21.背景图7

3.3. 单高斯法的优缺点

单高斯法在处理视频画面、提取前景目标时具有以下优缺点:

优点:

1) 相比于交替方向法来说更简单且易实现:单高斯法是一种简单的统计方法,适用于快速处理视频画面,尤其是视频画面较为简单,摄像头较为稳定。

2) 计算效率高:单高斯法的计算效率较高、计算耗时较少,适用于实时视频处理,能够快速识别并处理视频中的目标。

3) 对于背景稳定的场景适用:在背景相对稳定的场景下,单高斯法能够提供较为准确的前景提取,便于目标检测和跟踪。

缺点:

1) 对动态背景适应性差:当视频画面中存在动态背景(如波动的树叶、水面等)时,单高斯法的前景提取容易受到干扰,导致误检或漏检。

2) 对光照变化敏感:单高斯法对于光照变化非常敏感,当光照条件发生较大变化时,可能导致前景提取不准确,影响目标检测的准确性。

3) 单一高斯模型限制:单高斯法采用单一高斯模型对像素进行检验,对于复杂的背景或多目标场景,很难准确捕捉到背景的多样性和目标的复杂特征。比如以下视频画面前景目标较多、摄像头晃动、画面,较为复杂的情况使用单高斯法的结果并不如意(图22图23)。

Figure22.Original picture 8

22.原图8

Figure23.Foreground picture 8

23.前景8

因此在实际应用中,需要根据视频画面的复杂程度和场景需求综合考虑单高斯法的优缺点,并结合其他方法进行优化和改进,从而提高前景目标提取和检测跟踪的准确性和稳定性。

4. 混合高斯法

4.1. 混合高斯法的原理与求解

上述两种方法很难处理较为复杂的情况,使用混合高斯法则有一定的优越性。混合高斯模型使用K(一般为3~5)个高斯分布来表征图像中每个像素点的颜色特征。在新的一帧图像获得后更新混合高斯模型,用当前图形的每一个像素点与混合高斯模型匹配,如果成功则判定为背景点,否则为前景点。

混合高斯模型可以说是单一高斯概率密度函数的叠加与延伸。如果有一批观察数据 x = { x 1 , x 2 , , x n } ,在图像中的像素 ( x 0 , y 0 ) t时刻的观测值 x t ,它的概率密度函数由K个多维高斯分布函数的概率密度函数加权和来表示:

p ( x ) = i = 1 K ω i , t η i , t ( x t , μ i , t , Σ i , t )

K为高斯模型个数, ω i , t 为高斯模型权值, Σ i , t 为协方差矩阵。K个权值的总和应该为1, μ i , t 为第i个高斯分布的均值。假设像素点的RGB各个观察分量值之间相互独立,则:

Σ i , t = σ i , t 2 I

其中 σ i , t 2 为该像素在t时刻图像序列的第i个高斯模型的方差。则t时刻的第i个高斯分布表达式为:

η i , t ( x t , μ i , t , Σ i , t ) = 1 ( 2 π ) n 2 | Σ i , t | 1 2 exp [ 1 2 ( x μ ) T Σ i , t 1 ( x μ ) ]

当前像素 X i k个高斯分布按 | X i μ i , t 1 | 2.5 σ i , t 1 逐一进行匹配,再根据匹配结果调整混合高斯模型的参数:

M i , t = { 1 , | X i μ i , t 1 | 2.5 σ i , t 1 0 , | X i μ i , t 1 | > 2.5 σ i , t 1

只要当前像素与k个模型其中的一个模型匹配,则认为该像素匹配高斯背景模型,而每个高斯模型的权值更新方法如下:

ω i , t = ( 1 α ) ω i , t 1 + α M i , t

其中 α 表示学习率,若匹配成功则 M i , t = 1 ,否则 M i , t = 0 ,即增大匹配到的高斯模型的权重。需要说明的是,匹配不成功的高斯模型分布参数不变,对匹配成功的高斯模型的均值和方差参数需要进行更新:

μ t = ( 1 β ) μ t 1 + β X t σ t t 1 2 = ( 1 β ) σ t 1 2 + β ( X t μ t ) T ( X t μ t )

其中 β = α ω i , t 表示更新速率。混合高斯法求解的流程如下:

Step 1 对获取的当前帧的各个像素值分别与已经存在的K个高斯分布依次进行匹配,匹配条件表示为:

| x t μ i , t 1 ( x , y ) | 2.5 σ i , t 1

Step 2 假如满足上式中的匹配条件,则该像素值与高斯分布匹配成功。若匹配不成功:

1) 当 k < K 时,增加新的高斯分布;

2) 当 k = K 时,则用新的高斯分布代替优先级 φ i , t = ω i , t | Σ i , t | 最小的分布。新的高斯分布以 x t 作为均值,并初始化一个较大的方差(取值为50),权重为较小值。

Step 3 未匹配模式的均值和标准差不变,对匹配模式的第i个高斯分布的参数更新如下:

μ i , k = ( 1 θ ) μ i , t 1 + θ x i , t σ t 2 = ( 1 β ) σ i , t 1 2 + θ ( x i , t μ i , t 1 ) T ( x i , t μ i , t 1 ) Σ i , t = ( 1 θ ) Σ i , t 1 + θ d i a g [ ( x i , t μ i , t 1 ) T ( x i , t μ i , t 1 ) ] θ = ε η ( x i , t | μ i , t , Σ i , t )

其中 ε 为学习速率,决定背景的更新速度,则 0 ε 1 θ 为参数。

Step 4 匹配检验后,按下式更新同一个像素的各个高斯分布的权重:

ω i , t = ( 1 ε ) ω i , t 1 + ε M i , t

Step 5 高斯模型更新完毕后,对每个像素点的K个高斯分布按权重排列,取前一个高斯分布作为背景像素的最佳描述:

B = arg min b ( k = 1 b ω k > T 1 ) , 0.5 < T 1 < 1

继续对像素值与上述K个高斯分布进行匹配与检验,如果像素值与前个高斯分布的任意一个匹配,则该像素为背景点;否则为前景点,进而完成运动目标的检测。

4.2. 混合高斯法实现的成果(图24~29)

Figure24.Original picture 9

24.原图9

Figure25.Foreground picture 9

25.前景9

Figure26.Original picture 10

26.原图10

Figure27.Foreground picture 10

27.前景10

Figure28.Original picture 11

28.原图11

Figure29.Foreground picture 11

29.前景11

图28取自于一段画面复杂、前景目标较多的视频,但由混合高斯法提取出的前景目标依旧较为清晰准确。

4.3. 混合高斯法实现的优缺点

优点:

1) 适应性强:混合高斯法能够适应各种类型的视频画面,包括不同的背景、前景、光照条件和运动模式等。它能够灵活地应对与处理复杂的视频画面。

2) 多模态建模:视频画面通常由多个运动对象和背景组成,混合高斯模型能够通过将每个分量视为一个运动对象或背景,从而对视频画面进行多模态建模,提高了对画面复杂度的处理能力与表达能力。

3) 软聚类:混合高斯模型能够提供软聚类的结果,即每个像素点可以被分配到不同的混合成分中,从而更好地处理前景与背景的混合区域,提升前景目标提取的效果。

缺点:

1) 参数选择困难:混合高斯模型需要估计每个高斯成分的均值、协方差和权重等参数。在实际应用中,对于参数的选择通常需要一定的经验和大量的调整,如若调整的效果不佳,则会影响模型的性能。

2) 过拟合:当视频画面的动态变化较大或者噪声较多时,混合高斯模型可能会出现过拟合的情况,导致对画面的建模不准确,如提取到其它物体作为前景目标,影响前景与背景的分离效果。

3) 复杂度高:对于高分辨率的视频画面,混合高斯模型的参数估计和运算量会大大增加,导致处理的复杂度较高,需要较高的计算资源。比如运行在Bilibili上下载的12秒高清视频,运行了大约10分钟,将计算机的运行内存占满。

综合来看,混合高斯模型在处理视频画面时具有一定的优势,尤其适用于需要对动态场景进行建模和分析的应用场景。但是在实际应用中,需要根据具体情况权衡其优缺点,并结合其他方法来进一步提高处理效果。

基金项目

由大学生创新创业训练项目资金支持。(项目编号:S202310710103)。

NOTES

*通讯作者。

参考文献

[1] Chan, S.H., Wang, X. and Elgendy, O.A. (2017) Plug-and-Play ADMM for Image Restoration: Fixed-Point Convergence and Applications.IEEE Transactions on Computational Imaging, 3, 84-98.
https://doi.org/10.1109/tci.2016.2629286
[2] Boyd, S. (2010) Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers.Foundations and Trends in Machine Learning, 3, 1-122.
https://doi.org/10.1561/2200000016
[3] Chen, Y., Ren, K., Gu, G.,et al. (2014) Moving Object Detection Based on Improved Single Gaussian Background Model.Chinese Journal of Lasers, 41, Article ID: 1109002.
https://doi.org/10.3788/cjl201441.1109002
[4] 陈银, 任侃, 顾国华, 等. 基于改进的单高斯背景模型运动目标检测算法[J]. 中国激光, 2014, 41(11): 245-253.
[5] 陈祖爵, 陈潇君, 何鸿. 基于改进的混合高斯模型的运动目标检测[J]. 中国图象图形学报, 2007(9): 1585-1589.
[6] 党小超, 毛鹏鑫, 郝占军. 基于快速求解高斯混合模型的流量聚类算法[J]. 计算机工程与应用, 2015, 51(8): 96-101.
[7] Wright, J., Ganesh, A., Rao, S.,et al. (2009) Robust Principal Component Analysis: Exact Recovery of Corrupted Low-Rank Matricesvia Convex Optimization.AdvancesInneuralInformation Processing Systems, 22, 2080-2088.

为你推荐



Baidu
map