在对配网用电模式进行划分时,为了解决用电量等时间序列数据长度过大及相似性度量不精确的问题,本文提出了一种基于二维分段云模型的时间序列分析方法。该方法首先将用电时间序列数据用二维的分段云模型来表示,然后在基于计算期望曲线重叠面积的方法上对不同云模型的相似度进行度量,最后通过K-最邻近算法对这些用电时间序列进行分类,并将实验结果与传统方法进行比较。实验结果表明:该方法能有效提高对配网用户侧用电模式分类的准确率。 In order to solve the problem that the length of time series data such as electricity consumption is too large and the similarity measurement is not accurate, a time series analysis method based on two-dimensional piecewise cloud model is proposed in this paper. In this method, the power consumption time series data are first represented by a two-dimensional piecewise cloud model, and then the similarity of different cloud models is measured based on the method of calculating the overlapping area of the expected curve. Finally, these time series are classified by K-nearest neighbor algorithm, and the experimental results are compared with the traditional methods. The experimental results show that this method can effectively improve the accuracy of power consumption pattern classification on the user side of distribution network.
王海靖1,崔屹平1,刘田1,汤思杰2,潘程杰2,陈金梅2
1广州供电局电力试验研究院,广东 广州
2西安交通大学电气工程学院,陕西 西安
收稿日期:2019年4月6日;录用日期:2019年4月18日;发布日期:2019年4月25日
在对配网用电模式进行划分时,为了解决用电量等时间序列数据长度过大及相似性度量不精确的问题,本文提出了一种基于二维分段云模型的时间序列分析方法。该方法首先将用电时间序列数据用二维的分段云模型来表示,然后在基于计算期望曲线重叠面积的方法上对不同云模型的相似度进行度量,最后通过K-最邻近算法对这些用电时间序列进行分类,并将实验结果与传统方法进行比较。实验结果表明:该方法能有效提高对配网用户侧用电模式分类的准确率。
关键词 :配网用电模式划分,时间序列分类,二维分段云模型
Copyright © 2019 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
智能电表的普及使得电网公司能够掌握海量的电力客户用电数据 [
近年来,不少学者对配网用电模式划分进行了研究。文献 [
因此本文提出了基于二维分段云模型的时间序列分析法,通过对从用户智能电表上采集的时间序列数据进行处理,从而实现对配网用户用电模式的划分。最终实验结果表明:该方法能够有效提高对配网用户侧的用电模式分类的准确率。
设X为一个普通的集合, X = { x } ,为论域,如果对于论域里的任意一个元素 ( x 1 , x 2 ) ,都存在有且仅有一个与它相对应的数 μ A ˜ ( x 1 , x 2 ) ∈ [ 0 , 1 ] ,则将由 μ A ˜ ( x 1 , x 2 ) 组成的集合 A ˜ 称为X上的模糊集合,将 μ A ˜ ( x 1 , x 2 ) 称为X中元素对 A ˜ 的隶属度。如果X中的元素分布是简单而且有序的,那么可以将X看作是基本变量,隶属度 μ A ˜ ( x ) 在X上的分布我们称其为隶属云;而如果X之中的元素分布不是简单而且有序的,但根据某个具体的规则f,我们可以把X映射到另外一个有序的论域 X ′ ,并且 X ′ 之中有且只有一个 ( x ′ 1 , x ′ 2 ) 和X中的 ( x 1 , x 2 ) 对应,则我们称 X ′ 为基本变量,隶属度 μ A ˜ ( x ) 在 X ′ 上的分布我们称之为隶属云 [
论域中的特定的点到概念的隶属度并不是固定的,总是存在着较小的差异,而实际上这种变化是具有稳定倾向的,这对云模型特征没有特别明显的影响,云滴的这种分布特性集中体现了定性概念具有模糊性与随机性的特点。
二维云模型用期望 ( E x 1 , E x 2 ) ,熵 ( E n 1 , E n 2 ) 和超熵 ( H 1 , H 2 ) 来表示其数学性质:
期望 :二维云模型云滴的空间分布在 x 1 o x 2 平面上投影的中心,是云滴在该平面上的分布最有代表性的点。
熵 ( E n 1 , E n 2 ) :二维云模型云滴在 x 1 o y 和 x 2 o y 平面上的分布的期望曲线的熵,反映了二维云模型云滴在 x 1 o y 和 x 2 o y 平面上的分布的不确定度。
超熵 ( H 1 , H 2 ) :二维云模型云滴在 x 1 o y 和 x 2 o y 平面上的分布的期望曲线的超熵,反映了二维云模型云滴在 x 1 o y 和 x 2 o y 平面上的分布的熵的不确定度 [
本节将介绍对于原始的用电时间序列数据的分段策略以及两个二维云模型之间相似性的度量方法。
为了解决在对原始的用户用电时间序列数据分段时存在的无法平均分段以及容易丢失大量有效信息的问题,本文提出了一种灵活的重叠分割策略(OPS)。它允许两个相邻的片段相互重叠并且具有M个公共点。这样,当M足够大时,我们保持联系紧密的点之间的连接,保护有效信息免于丢失。OPS的实现过程如下:
设从智能电表采集到的用电时间序列为 T = ( t 1 , t 2 , ⋯ , t N ) ,目标分段数为w,分段后时间子序列间的重叠点个数为M。
首先,计算所有子序列的总长度L以及重叠率O:
L = ∑ i = 1 w l e n g t h ( S i ) = N + ( W − 1 ) × M
O = ( W − 1 ) × M / L × 100 %
当L被W所除时,计算商数Q以及余数R。对于前R段子序列,其构成为:
S i = ( t i × ( Q + 1 − M ) + 1 , t i × ( Q + 1 − M ) + 2 , ⋯ , t i × ( Q + 1 − M ) + Q )
对于剩余的 W - R 段时间子序列,其构成为:
S W − j + i = ( t N − ( j − 1 ) × ( Q − M ) − Q + 1 , t N − ( j − 1 ) × ( Q − M ) − Q + 2 , ⋯ , t N − ( j − 1 ) × ( Q − M ) )
至此,我们将原始的长度为N的用电时间序列数据分段为W条子序列 S 1 , S 2 , ⋯ , S W ,且它们间的重叠率O。
为了解决不同原始时间序列之间相似性度量不准确的问题,本节将介绍两个二维分段云模型之间相似性的度量方法。
设两个原始时间序列为:
T = ( t 1 , t 2 , ⋯ , t n ) , T ¯ = ( t ¯ 1 , t ¯ 2 , ⋯ , t ¯ n )
通过OPS分段后可表示为:
T ′ = ( t ′ 1 , t ′ 2 , ⋯ , t ′ w ) , T ¯ ′ = ( t ¯ ′ 1 , t ¯ ′ 2 , ⋯ , t ¯ ′ w )
其中每一段子序列可以表示为:
t ′ i = ( T 1 , Δ T 1 ) = ( ( t 1 , e 1 ) , ⋯ , ( t d 1 , e d 1 ) ) , t ¯ ′ i = ( T ¯ 1 , Δ T ¯ 1 ) = ( ( t ¯ 1 , e ¯ 1 ) , ⋯ , ( t ¯ d 1 , e ¯ d 1 ) )
将上述的二维时间子序列分别投影到各自维度,则可表示为两个独立的一维时间子序列,即两个独立的一维列向量X和Y,将投影后的二维时间子序列代入逆向云发生器中,可将时间序列转化为二维云模型。逆向云发生器的实现过程如下:
输入:列向量 X = ( x 1 , x 2 , ⋯ , x n ) 、列向量 Y = ( y 1 , y 2 , ⋯ , y n )
步骤1,计算期望值 E x , E y :
E x = m e a n ( X ) = 1 n ∑ i = 1 n x i
E y = m e a n ( Y ) = 1 n ∑ i = 1 n y i
步骤2,计算熵 E n x , E n y :
E n x = 1 n π 2 ∑ i = 1 n | x i − E x |
E n y = 1 n π 2 ∑ i = 1 n | y i − E y |
步骤3,计算超熵 H e x , H e y :
H e x = v a r ( X ) − E n x 2
输出:以参数 ( E x , E y ) 、 、 ( H e x , H e y ) 为特征的二维云模型,用符号C表示。
将所有的时间子序列分别代入逆行云发生器中,则两个二维分段云模型分别可表示为:
{ C 1 ( E x 1 , E y 1 , E n x 1 , E n y 1 , H e x 1 , H e y 1 ) C 2 ( E x 2 , E y 2 , E n x 2 , E n y 2 , H e x 2 , H e y 2 ) ⋮ C w ( E x w , E y w , E n x w , E n y w , H e x w , H e y w ) { C ¯ 1 ( E ¯ x 1 , E ¯ y 1 , E ¯ n x 1 , E ¯ n y 1 , H ¯ e x 1 , H ¯ e y 1 ) C ¯ 2 ( E ¯ x 2 , E ¯ y 2 , E ¯ n x 2 , E ¯ n y 2 , H ¯ e x 2 , H ¯ e y 2 ) ⋮ C ¯ w ( E ¯ x w , E ¯ y w , E ¯ n x w , E ¯ n y w , H ¯ e x w , H ¯ e y w )
至此得到了原始时间序列数据的二维分段云模型,二维云模型同时关注了原始时间序列的分布和变化特征,因此保留了更多的原始有效信息,为接下来的相似性度量提供了准确性的保证。
首先我们对同一对应段的二维云进行相似性的度量。以第i段二维云为例,将第i段二维云在两个维度上分别进行投影,则 C i ( E x i , E y i , E n x i , E n y i , H e x i , H e y i ) 被分解为
用上述方法可以计算出两个二维分段云模型中对应的每一段二维云的相似度,则两个二维分段云模型之间的相似度计算公式为:
S M ( T ′ , T ¯ ′ ) = 1 w ∑ i = 1 w T C M i
最后,我们采用KNN (K最邻近分类)算法,以已经计算好的二维云模型之间的相似度为依据,对采集的用电时间序列数据进行分类。在下一节中,我们将通过从智能电表中实际采集到的时间序列数据对该方法进行验证。
本实验数据来自UCR时间序列分类库中的公共数据集Small Kitchen Appliances,该数据集记录了英国251个家庭在一个月内的用电数据,每条时间序列长度为720 (在24小时内,每两分钟记录一次数据),将用户行为共分为3类。其中训练集包含375条的时间序列,测试集包含375条时间序列。
为了使不同的时间序列在后续的相似性度量等处理过程中不会因为原始数据的量纲不同而造成巨大影响,我们需要对从智能电表采集到的原始用电时间序列数据进行归一化处理:
设原始的用电时间序列为 T = { t 1 , t 2 , ⋯ , t m } ,则:
t i-nm = t i − t min t max − t min
其中 t max = max ( t 1 , t 2 , ⋯ , t m ) , t min = min ( t 1 , t 2 , ⋯ , t m ) 。
归一化后的用电时间序列为: T nm = { t 1 -nm , t 2 -nm , ⋯ , t m -nm } 。
另外,为了减少平移和缩放对相似性的影响,我们需要对用电原始时间序列进行标准化处理,常用的方法是z标准化(Z-score)。
设原始的用电时间序列为 T = { t 1 , t 2 , ⋯ , t m } ,其平均值 和标准偏差 t σ 分别为:
t u = ∑ i = 1 m t i
t σ = 1 m ∑ i = 1 m ( t i − t μ ) 2
则由式:
t i-sd = t i − t u t σ
标准化后的原始用电时间序列为: T sd = { t 1 -sd , t 2 -sd , ⋯ , t m -sd }
本实验首先将原始时间序列代入二维分段云模型中,通过计算测试集序列与训练集序列的二维分段云模型相似度,采用K-最邻近算法实现对时间序列的分类。由于二维分段云模型分段长度的选择与K-最邻近算法中K的取值都会影响到分类结果,因此首先对这两个参数进行优化。
考虑到二维分段云模型每一段子序列的长度对于分类的合理性与准确率有较大的影响,我们取二维云模型分段数目w为1~20进行实验,测试结果如图1所示,当分段数w取7和12时,即每段子序列的分段长度为103和60时,模型的分类效果最好。而当w取值较小时,二维分段云模型丢失了大量的原始序列信息,因此分类效果不佳;当w的值较大时,分段后的子序列长度已经很短,因此无法达到减小时间序列长度的效果,同样影响了分类的性能。
图1. 时间序列分段数对实验结果的影响
本实验由于采用的K-最近邻算法进行分类,因此其参数K的取值对分类的结果存在着很大的影响,为了使K的取值尽可能的合理,以避免因K的取值不佳而错误的评估了分段云模型的性能,我们取10组数值 { 1 , 2 , ⋯ , 10 } ,为了控制变量,我们取分段数w = 7,进行实验,其结果如图2,当K = 7时,二维分段云模型的分类效果最好,正确率达83.6%。
图2. K取值对实验结果的影响
为了能够更客观地评价二维分段云模型的分类性能,我们将传统时间序列分类方法DTW (动态时间归整)与二维分段云模型两种方法进行对比。为了减少因数据样本选择所带来的偶然性,我们将训练集随机抽样三次,每次抽取的新训练集包含240条时间序列。将各参数设为最优值,进行实验,分类正确率如表1所示,针对本数据集,传统的DTW (动态时间归整)方法的分类效果对样本的选择十分敏感,且正确率低于本文所提出的二维分段云模型的分类正确率。因此,可以验证二维分段云模型具有较好的分类性能。
模型 | 训练集1 | 训练集2 | 训练集3 | 平均正确率 |
---|---|---|---|---|
二维分段云模型 | 82% | 80.8% | 82% | 81.6% |
DTW | 79.2% | 55.9% | 51.2% | 62.1% |
表1. 两种模型实验结果对比
本文提出了一种基于二维分段云模型的时间序列分析方法,用于解决在对配网中的用电时间序列数据进行分析时所出现的长度过大和相似性度量不准确的问题。该方法首先将用电时间序列数据用二维的分段云模型来表示,然后在基于计算期望曲线重叠面积的方法上对不同云模型的相似度进行度量,最后通过K-最邻近算法对用电时间序列进行分类。实验结果表明,针对本文所用数据集,当分段数w取7,K值取7时,二维分段云模型的分类正确率高达83.6%。最后与传统的DTW动态时间规整方法进行对比,得到二维分段云模型对配网用电模式的分类效果更好。
中国南方电网有限责任公司科技项目(080037KK52170051 (GZHKJXM20170104))。
王海靖,崔屹平,刘 田,汤思杰,潘程杰,陈金梅. 基于时间序列二维分段云模型的配网用电模式划分方法的研究Time Series Two-Dimensional Piecewise Cloud Model for Distribution Network Power Consumption Mode Partition[J]. 计算机科学与应用, 2019, 09(04): 769-776. https://doi.org/10.12677/CSA.2019.94086
https://doi.org/10.1109/tpwrs.2016.2604389
https://doi.org/10.1109/tpami.2010.44
https://doi.org/10.1007/bf01329331
https://doi.org/10.1016/j.knosys.2010.12.008