Research on Coal Mining Machine Data Anomaly Identification Based on Digital Twin and Clustering Algorithm
In this paper, a coal mining machine data anomaly identification method based on digital twin and improved R-DBSCAN clustering algorithm is proposed for the accuracy of data collection in the construction of digital twin model of coal mining machine. The method first establishes the digital twin model of coal mining machine and carries out abnormal data identification by using the improved R-DBSCAN algorithm. The improved algorithm adaptively determines the parameters of the DBSCAN algorithm through K-dist graph, thereby improving the recognition effect of abnormal data. Empirical tests have revealed that the suggested algorithm can more accurately recognize the abnormal data of coal mining machine compared with other clustering algorithms, which in turn leads to the improvement of the accuracy and effectiveness of the construction of a digital twin model of coal mining machine.
Digital Twin
在推进煤矿行业高质量发展的征途上,智能化技术已经转变为驱动其发展的核心动力,并确定成为煤矿工业发展的未来趋势。数字孪生是一种先进的技术,它结合了物联网、大数据技术与数字可视化仿真技术,创建出一个实体的数字副本,即数字化“克隆体”。通过数字孪生技术,能够构建出一个与物理实体完全对应的数字模型,这个模型可以实时监测和分析实体对象的状态,提供有效的监控与分析服务。鉴于数字孪生技术的实时性高、可扩展性强等多种特点,可对煤矿开采过程中的采煤机进行构建,从而得到相应的数字化孪生实体模型。然而,数据采集的精确性直接影响煤矿采煤机数字孪生体构建的准确性和有效性。
李文杰等
综上,现有技术基于自适应选取聚类算法中DBSCAN算法参数方面的研究较少,且相关方面的研究大多采用固定曲线进行分析,在数据集上选取的参数不能适应数据集的自身分布特性,致使聚类效果不理想。从而使煤矿采煤机数字信息采集过程中异常噪声数据信息识别不明显,进而导致煤矿采煤机数字李生体构建的准确性和有效性不足
针对目前采煤机异常噪声数据识别困难的问题,本文提出了一种结合数字孪生技术和聚类算法的新方法,用于采煤机数据异常的识别研究,搭建了采煤机数字孪生模型,并以其为基础建立了采煤机的异常数据识别模型,采用改进的R-DBSCAN算法进行异常数据识别,从而提高数字孪生体构建的准确性和有效性。
DBSCAN算法是一种基于密度的空间聚类算法。在执行数据聚类时,此算法主要依赖密度差异来辨别高密度区域并将这些区域归为簇,同时,它能有效识别并过滤掉低密度区域。这种方法特别适用于识别含有噪声数据集中的不同形状的聚类结构
核心对象:当一个点的密度达到算法预设的特定阈值时,它被识别为核心点。
邻域的距离阈值:设定的半径r。
直接密度可达:如果点p位于点g的r邻域内,并且点q是一个核心点,那么点p通过点q在以r为半径的邻域内是直接密度可达的。
密度可达性:如果存在一个点序列,如 ,其中对于任意的qi和qi−1,如果存在一条路径,使得两个点之间的所有点都是核心点,或者可以通过这条路径访问到核心点,那么这两个点之间被称为是密度可达的。
密度连通性:如果从一个核心点p出发,点p和另一个点k都是密度可达的,那么称点p和点k之间是密度连通的。
边界点:一个属于某个簇的非核心点。
簇:在给定的数据集D中,如果一个非空的数据子集C满足以下条件,那么它被称为一个簇:
1) 对于数据集中的任何对象q,假定存在一个核心对象p,它已经是簇C的一部分,同时q能够通过密度可达性从p不间断地到达,那么q同样被视为簇C的一个成员。
2) 对于C中的任意两个对象p和q,对象p和对象q是密度连通的。
直接密度可达性:当一个点p处于点g的r邻域范围内,并且点g被认为是核心点时,点p通过直接密度可达性与点g相连。
噪声点:那些不属于任何簇的点,从任何一个核心点出发都无法通过密度可达性到达的点。
在DBSCAN算法的基础上,提出了基于K-dist图自适应地确定算法参数的R-DBSCAN算法,该算法结合数据集的分布特性构建K-dist曲线,以产生一系列的Eps参数值。同时,利用数学期望和减噪阈值的方法,可以确定相应的MinPts参数值。在聚类过程中,一旦簇的数量变化趋于平稳,那么可以选择对应于最大K值的Eps和MinPts参数组合作为最优的参数设置。这种方法可以使算法参数自适应地确定,以便对数据集进行有效的聚类分析,并辨识出异常数据点。
S1是一个包含500个数据对象、分为5个类别的二维数据集。这些数据对象的分布情况如
步骤1:遍历数据集中的每个数据点,计算其与其他数据点之间的欧几里得距离,以此创建一个距离矩阵。
距离分布矩阵如下:
Distn×n = {dist(I, j)|1 ≤ i ≤ n, 1 ≤ j ≤ n}
其中,Distn × n是距离矩阵,dist(i, j)是数据集中的对象i与对象j之间的距离,n为数据集D中个数。
步骤2:基于距离矩阵获取不同K值对应的多个K-dist曲线。
对距离矩阵Distn × n中的各元素按行进行升序排列,排定后,排序后的距离矩阵中第一列的元素都将变为0,这是每个数据点与自己之间的距离。将排序后的距离矩阵中的第K列元素按升序排序作为纵坐标,将数据量作为横坐标,生成多条K-dist曲线;其中,1 ≤ K ≤ n,n为数据集中的数据个数。即在K-dist曲线上,每个点的含义代表数据集中第X个数据点与其最近的K个数据点之间的距离,据此生成K-dist曲线,参数K取不同值时生成不同的K-dist曲线,所有K-dist曲线组成K-dist图。
步骤3:采用最小二乘法对每条K-dist曲线进行曲线拟合,并采用最大曲率方法获取拟合后的每条K-dist曲线的拐点,得到多个Eps参数。
计算拟合后的K-dist光滑曲线平稳上升后突变区域内曲率最大的点,同时也是平缓曲线急剧上升处的拐点,拐点所对应的距离值(纵坐标)作为Eps参数EpsK,对所有K-dist曲线计算完成后生成Eps参数列表。
步骤4:对所有K-dist曲线计算完成后生成Eps参数列表,将所有的K-dist (1 ≤ K ≤ n)曲线执行上述步骤和过程,每条K-dist曲线得到的Eps参数组成Eps参数列表Epslist。
步骤5:通过数学期望方法对一系列Eps参数进行计算,可以得出相应的多个MinPts参数值。
对于上述生成的Eps参数列表,计算在每个EpsK (1 ≤ K ≤ n)参数下数据集D中每个对象在该EpsK邻域内所包含的数据数量,进而得到每个数据Eps邻域数据数量的期望值作为MinPts待定参数,然后为此待定参数增加一个减噪域值生成MinPtsK参数,具体表示如下:
步骤7:通过选用确定的最佳Eps参数和最佳MinPts参数来运用DBSCAN算法,实现最优的聚类成效。
该聚类结果共形成了5个簇,与数据集预先定义的聚类结果相吻合。这表明提出的R-DBSCAN算法可以有效地对数据集进行聚类,并且准确地划分了不同的密度区域。
本算法采用轮廓系数验证自适应选取的最优参数下的聚类效果。轮廓系数是一种衡量聚类效果优质性的有效量化标准。其计算公式如下:
在采煤机执行煤炭开采任务时,其切割煤岩的过程中会产生多种具有不同特征的噪声。这些噪声源的复合效应决定了采煤机整体噪声的水平和特性,这种影响是各个噪声成分相互作用的结果。如
依据田震等研究者
齿轮加速度噪声的计算公式为:
针对采煤机噪音中的相关数学模型
通过审视聚类结果中的簇的数量,可以观察到R-DBSCAN算法所形成的簇数与数据集的实际结构具有最高的一致性。在F值这一评价指标上,R-DBSCAN算法的表现也优于其他对比算法。然而,由于AF-DBSCAN算法的参数需要预先设定,这可能导致聚类结果的误差较大。DBSCAN算法在K-dist曲线中固定的K值为4,以及固定的MinPts参数为4,这使得其选择的Eps参数和MinPts参数可能无法适应不同数据集的特点,从而影响了其聚类效果。在AMIARI这两个评价指标上,R-DBSCAN算法的聚类结果与数据集的真实分布有着最好的契合度,这反映了R-DBSCAN在处理二维人工数据集时聚类的高度准确性。综合来看,R-DBSCAN算法在聚类准确性方面展现出与其他算法相比的显著优势。
数据集 |
类别 |
聚类算法 |
聚类结果簇数 |
Eps |
MinPts |
F值 |
AMI |
ARI |
Aggregation |
7 |
R-DBSCAN |
7 |
2.66 |
27 |
0.989 |
0.986 |
0.986 |
KANN-DBSCAN |
7 |
2.77 |
34 |
0.985 |
0.979 |
0.982 |
||
AF-DBSCAN |
10 |
0.94 |
3 |
0.942 |
0.921 |
0.926 |
||
DBSCAN |
5 |
1.51 |
4 |
0.869 |
0.885 |
0.807 |
||
Flame |
2 |
R-DBSCAN |
2 |
1.50 |
12 |
0.975 |
0.847 |
0.922 |
KANN-DBSCAN |
2 |
1.69 |
17 |
0.950 |
0.755 |
0.860 |
||
AF-DBSCAN |
2 |
0.90 |
5 |
0.922 |
0.755 |
0.840 |
||
DBSCAN |
1 |
1.23 |
4 |
0.637 |
0.016 |
0.012 |
||
R15 |
15 |
R-DBSCAN |
15 |
0.70 |
26 |
0.995 |
0.984 |
0.978 |
KANN-DBSCAN |
15 |
0.76 |
33 |
0.995 |
0.983 |
0.978 |
||
AF-DBSCAN |
20 |
0.25 |
3 |
0.843 |
0.883 |
0.831 |
||
DBSCAN |
14 |
0.34 |
4 |
0.893 |
0.937 |
0.879 |
对于二维数据集,标准的DBSCAN算法的时间复杂度是O(n^2),其中n是数据集中对象的数量。R-DBSCAN算法是基于DBSCAN的,它进行了迭代运算,迭代次数与数据集中的对象数量n相同。因此,R-DBSCAN算法的时间复杂度为O(n^2 log n)。
DBSCAN算法的空间复杂度为O(n^2),而R-DBSCAN算法在运算过程中的距离矩阵和MinPts参数列表不需要存储,即它们不计入空间复杂度,但Eps参数列表的空间复杂度为O(n)。故而,R-DBSCAN算法的总空间复杂度为O(n^2) + O(n)。
本研究在DBSCAN算法的基础上,提出了一种新的R-DBSCAN算法,该算法利用K-dist图来自动确定算法的参数。它根据数据集的分布特性,通过K-dist曲线生成Eps参数序列表和对应的MinPts参数列表。在确定聚类结果的稳定簇数区间时,可以通过选择对应最大簇数的Eps和MinPts值来确定算法的最佳参数,实现参数的自适应确定。采用本算法进行数据集的聚类,可以提高聚类结果的准确性,进而增强采煤机异常数据筛选的准确性。这种方法的运用,有助于提高采煤机数字孪生模型构建的准确性和有效性。