1. 背景
在推进煤矿行业高质量发展的征途上,智能化技术已经转变为驱动其发展的核心动力,并确定成为煤矿工业发展的未来趋势。数字孪生是一种先进的技术,它结合了物联网、大数据技术与数字可视化仿真技术,创建出一个实体的数字副本,即数字化“克隆体”。通过数字孪生技术,能够构建出一个与物理实体完全对应的数字模型,这个模型可以实时监测和分析实体对象的状态,提供有效的监控与分析服务。鉴于数字孪生技术的实时性高、可扩展性强等多种特点,可对煤矿开采过程中的采煤机进行构建,从而得到相应的数字化孪生实体模型。然而,数据采集的精确性直接影响煤矿采煤机数字孪生体构建的准确性和有效性。
李文杰等[1]提出了一种名为KANN-DBSCAN的聚类算法,这种算法可以自适应地选择参数,从而实现高准确度的聚类结果,但其时间复杂度相对较高。另一方面,周治平等[2]提出了一种自适应参数选取的AF-DBSCAN算法,该算法利用数学统计原理来识别曲线的拐点,以自适应地计算出最佳的全局参数Eps和MinPts,但该算法固定选取K = 4可能会限制参数的选取,同时自适应选取的参数不一定能够随着不同数据集的自身分布特性的变化而具备相应的变化趋势。陈文龙等[3]利用KD树对数据集进行了分割,以便构建邻近对象数据集。这一过程可以在聚类前识别并分离噪声点和核心点,从而在聚类过程中减少了噪声数据的处理,提高了聚类效率,但在数据量增大时内存占用过大。
综上,现有技术基于自适应选取聚类算法中DBSCAN算法参数方面的研究较少,且相关方面的研究大多采用固定曲线进行分析,在数据集上选取的参数不能适应数据集的自身分布特性,致使聚类效果不理想。从而使煤矿采煤机数字信息采集过程中异常噪声数据信息识别不明显,进而导致煤矿采煤机数字李生体构建的准确性和有效性不足[4][5]。
针对目前采煤机异常噪声数据识别困难的问题,本文提出了一种结合数字孪生技术和聚类算法的新方法,用于采煤机数据异常的识别研究,搭建了采煤机数字孪生模型,并以其为基础建立了采煤机的异常数据识别模型,采用改进的R-DBSCAN算法进行异常数据识别,从而提高数字孪生体构建的准确性和有效性。
2. 基于DBSCAN的改进算法
2.1. DBSCAN算法的相关定义
DBSCAN算法是一种基于密度的空间聚类算法。在执行数据聚类时,此算法主要依赖密度差异来辨别高密度区域并将这些区域归为簇,同时,它能有效识别并过滤掉低密度区域。这种方法特别适用于识别含有噪声数据集中的不同形状的聚类结构[6]。为了更准确地描述这个算法,下面给出了相关的定义。
核心对象:当一个点的密度达到算法预设的特定阈值时,它被识别为核心点。
邻域的距离阈值:设定的半径r。
直接密度可达:如果点p位于点g的r邻域内,并且点q是一个核心点,那么点p通过点q在以r为半径的邻域内是直接密度可达的。
密度可达性:如果存在一个点序列,如
,其中对于任意的qi和qi−1,如果存在一条路径,使得两个点之间的所有点都是核心点,或者可以通过这条路径访问到核心点,那么这两个点之间被称为是密度可达的。
密度连通性:如果从一个核心点p出发,点p和另一个点k都是密度可达的,那么称点p和点k之间是密度连通的。
边界点:一个属于某个簇的非核心点。
簇:在给定的数据集D中,如果一个非空的数据子集C满足以下条件,那么它被称为一个簇:
1) 对于数据集中的任何对象q,假定存在一个核心对象p,它已经是簇C的一部分,同时q能够通过密度可达性从p不间断地到达,那么q同样被视为簇C的一个成员。
2) 对于C中的任意两个对象p和q,对象p和对象q是密度连通的。
直接密度可达性:当一个点p处于点g的r邻域范围内,并且点g被认为是核心点时,点p通过直接密度可达性与点g相连。
噪声点:那些不属于任何簇的点,从任何一个核心点出发都无法通过密度可达性到达的点。
2.2. 基于DBSCAN的改进
在DBSCAN算法的基础上,提出了基于K-dist图自适应地确定算法参数的R-DBSCAN算法,该算法结合数据集的分布特性构建K-dist曲线,以产生一系列的Eps参数值。同时,利用数学期望和减噪阈值的方法,可以确定相应的MinPts参数值。在聚类过程中,一旦簇的数量变化趋于平稳,那么可以选择对应于最大K值的Eps和MinPts参数组合作为最优的参数设置。这种方法可以使算法参数自适应地确定,以便对数据集进行有效的聚类分析,并辨识出异常数据点。
S1是一个包含500个数据对象、分为5个类别的二维数据集。这些数据对象的分布情况如图1所示。为了简化算法的讨论,本文将以这个数据集为例展开具体的分析。
步骤1:遍历数据集中的每个数据点,计算其与其他数据点之间的欧几里得距离,以此创建一个距离矩阵。
距离分布矩阵如下:
Distn×n = {dist(I, j)|1 ≤ i ≤ n, 1 ≤ j ≤ n}
其中,Distn × n是距离矩阵,dist(i, j)是数据集中的对象i与对象j之间的距离,n为数据集D中个数。
Figure 1.S1 two-dimensional dataset
图1.S1二维数据集
步骤2:基于距离矩阵获取不同K值对应的多个K-dist曲线。
对距离矩阵Distn × n中的各元素按行进行升序排列,排定后,排序后的距离矩阵中第一列的元素都将变为0,这是每个数据点与自己之间的距离。将排序后的距离矩阵中的第K列元素按升序排序作为纵坐标,将数据量作为横坐标,生成多条K-dist曲线;其中,1 ≤ K ≤ n,n为数据集中的数据个数。即在K-dist曲线上,每个点的含义代表数据集中第X个数据点与其最近的K个数据点之间的距离,据此生成K-dist曲线,参数K取不同值时生成不同的K-dist曲线,所有K-dist曲线组成K-dist图。
步骤3:采用最小二乘法对每条K-dist曲线进行曲线拟合,并采用最大曲率方法获取拟合后的每条K-dist曲线的拐点,得到多个Eps参数。
计算拟合后的K-dist光滑曲线平稳上升后突变区域内曲率最大的点,同时也是平缓曲线急剧上升处的拐点,拐点所对应的距离值(纵坐标)作为Eps参数EpsK,对所有K-dist曲线计算完成后生成Eps参数列表。
步骤4:对所有K-dist曲线计算完成后生成Eps参数列表,将所有的K-dist (1 ≤ K ≤ n)曲线执行上述步骤和过程,每条K-dist曲线得到的Eps参数组成Eps参数列表Epslist。
步骤5:通过数学期望方法对一系列Eps参数进行计算,可以得出相应的多个MinPts参数值。
对于上述生成的Eps参数列表,计算在每个EpsK (1 ≤ K ≤ n)参数下数据集D中每个对象在该EpsK邻域内所包含的数据数量,进而得到每个数据Eps邻域数据数量的期望值作为MinPts待定参数,然后为此待定参数增加一个减噪域值生成MinPtsK参数,具体表示如下:
其中,β为减噪域值,n为数据集D中数据总数,Pi为第i个数据的Eps邻域数据数量,在计算完每个EpsK参数之后,将创建一个MinPts参数的列表。
如下式:
MinPtslist = {MinPtsK|1 ≤ K ≤ n}
步骤6:对于数据集D,通过将不同的Eps和MinPts参数组合依次应用于DBSCAN聚类算法,进行聚类分析。通过审视聚类结果所形成的簇的数量,可以确定聚类结构的稳定区间。在这个稳定区间内,寻找能够生成最稳定聚类结果的K值。
随着K值的变动,聚类结果所形成的簇的数量也会相应地发生改变。如果聚类结果的簇数连续Y次保持不变,认定聚类结果已经趋于稳定,并将此时的簇数X视为最优聚类结果簇数。接着,应用相同的参数设置来对数据集D执行DBSCAN聚类算法。如果聚类结果的簇数没有连续Y次保持相同,则寻找簇数连续Y − 1次保持相同的情况。如果这样的情况也不存在,定义簇数波动范围在1以内的为稳定区间,并选取该区间内的最大K值作为最优K值。
所确定的最优K值所导出的聚类结果中的簇数,被视为最优的聚类簇数。在最优K值下,由K-dist曲线生成的Eps参数值被认为是最佳的Eps参数值,而基于最优K值生成的Eps参数值对应的MinPts参数值被认为是最佳的MinPts参数值。
通过遵循前述分析与步骤对图1所展示的数据集进行处理,获得了聚类结果的簇数与K值之间的关联,如图2所示。在K值为4的时候,聚类结果的簇数开始进入一个较为稳定的区间。因此,可以确定该数据集的最优K值和最优Eps参数,基于该Eps参数生成最优MinPts参数,通过计算可得最优Eps = 3,最优MinPts = 77。
Figure 2.Plot of relationship between the number of clusters and K-value for clustering results
图2.聚类结果簇数与K值关系图
步骤7:通过选用确定的最佳Eps参数和最佳MinPts参数来运用DBSCAN算法,实现最优的聚类成效。
该聚类结果共形成了5个簇,与数据集预先定义的聚类结果相吻合。这表明提出的R-DBSCAN算法可以有效地对数据集进行聚类,并且准确地划分了不同的密度区域。
2.3. R-DBSCAN算法的有效性
本算法采用轮廓系数验证自适应选取的最优参数下的聚类效果。轮廓系数是一种衡量聚类效果优质性的有效量化标准。其计算公式如下:
图3为轮廓系数与K值的关系曲线,从图中可以看出本算法自适应选取的最优参数的聚类结果较好,相比于其它参数轮廓系数值最高,因此本算法选取的最优K值是有效的,最优K值对应的Eps和MinPts参数是最优的。
3. 对于采煤机噪音产生的分析
在采煤机执行煤炭开采任务时,其切割煤岩的过程中会产生多种具有不同特征的噪声。这些噪声源的复合效应决定了采煤机整体噪声的水平和特性,这种影响是各个噪声成分相互作用的结果。如图4所示。
依据田震等研究者[7][8]对采煤机振动噪声源所进行的分析,可以构建一个数学模型来描述采煤机工作面噪声与采煤机及其相关参数之间的关系。
齿轮加速度噪声的计算公式为:
Figure 3.Plot of relationship between clustering effect profile coefficients and K-values
图3.聚类效果轮廓系数与K值的关系图
Figure 4.Coal mining machine noise sources
图4.采煤机噪声声源
4. 实验与结果分析
4.1. 实验数据集
针对采煤机噪音中的相关数学模型[9]-[13]分析,构建采煤机数字孪生模型,并在UCI真实数据集上选取了接近模型分析的数据集,从而对本算法的聚类准确性和有效性进行验证,图5展示了所选用的实验数据集,依次为Aggregation、Flame、R15数据集,表1为结果对比。
通过审视聚类结果中的簇的数量,可以观察到R-DBSCAN算法所形成的簇数与数据集的实际结构具有最高的一致性。在F值这一评价指标上,R-DBSCAN算法的表现也优于其他对比算法。然而,由于AF-DBSCAN算法的参数需要预先设定,这可能导致聚类结果的误差较大。DBSCAN算法在K-dist曲线中固定的K值为4,以及固定的MinPts参数为4,这使得其选择的Eps参数和MinPts参数可能无法适应不同数据集的特点,从而影响了其聚类效果。在AMIARI这两个评价指标上,R-DBSCAN算法的聚类结果与数据集的真实分布有着最好的契合度,这反映了R-DBSCAN在处理二维人工数据集时聚类的高度准确性。综合来看,R-DBSCAN算法在聚类准确性方面展现出与其他算法相比的显著优势。
Figure 5.Dataset
图5.数据集
Table 1.Comparison of results
表1.结果对比
数据集 |
类别 |
聚类算法 |
聚类结果 簇数 |
Eps |
MinPts |
F值 |
AMI |
ARI |
Aggregation |
7 |
R-DBSCAN |
7 |
2.66 |
27 |
0.989 |
0.986 |
0.986 |
KANN-DBSCAN |
7 |
2.77 |
34 |
0.985 |
0.979 |
0.982 |
AF-DBSCAN |
10 |
0.94 |
3 |
0.942 |
0.921 |
0.926 |
DBSCAN |
5 |
1.51 |
4 |
0.869 |
0.885 |
0.807 |
Flame |
2 |
R-DBSCAN |
2 |
1.50 |
12 |
0.975 |
0.847 |
0.922 |
KANN-DBSCAN |
2 |
1.69 |
17 |
0.950 |
0.755 |
0.860 |
AF-DBSCAN |
2 |
0.90 |
5 |
0.922 |
0.755 |
0.840 |
DBSCAN |
1 |
1.23 |
4 |
0.637 |
0.016 |
0.012 |
R15 |
15 |
R-DBSCAN |
15 |
0.70 |
26 |
0.995 |
0.984 |
0.978 |
KANN-DBSCAN |
15 |
0.76 |
33 |
0.995 |
0.983 |
0.978 |
AF-DBSCAN |
20 |
0.25 |
3 |
0.843 |
0.883 |
0.831 |
DBSCAN |
14 |
0.34 |
4 |
0.893 |
0.937 |
0.879 |
4.2. 算法度分析
对于二维数据集,标准的DBSCAN算法的时间复杂度是O(n^2),其中n是数据集中对象的数量。R-DBSCAN算法是基于DBSCAN的,它进行了迭代运算,迭代次数与数据集中的对象数量n相同。因此,R-DBSCAN算法的时间复杂度为O(n^2 log n)。
DBSCAN算法的空间复杂度为O(n^2),而R-DBSCAN算法在运算过程中的距离矩阵和MinPts参数列表不需要存储,即它们不计入空间复杂度,但Eps参数列表的空间复杂度为O(n)。故而,R-DBSCAN算法的总空间复杂度为O(n^2) + O(n)。
5. 结论
本研究在DBSCAN算法的基础上,提出了一种新的R-DBSCAN算法,该算法利用K-dist图来自动确定算法的参数。它根据数据集的分布特性,通过K-dist曲线生成Eps参数序列表和对应的MinPts参数列表。在确定聚类结果的稳定簇数区间时,可以通过选择对应最大簇数的Eps和MinPts值来确定算法的最佳参数,实现参数的自适应确定。采用本算法进行数据集的聚类,可以提高聚类结果的准确性,进而增强采煤机异常数据筛选的准确性。这种方法的运用,有助于提高采煤机数字孪生模型构建的准确性和有效性。