作为一种常见的骨科疾病,骨肉瘤属于恶性程度甚高、预后极差且转移较快的骨原发性恶性肿瘤。由于该病多发于青少年且危害很大,因此,早期发现、早期诊断和早期治疗便成为治疗骨肉瘤的关键。将机器学习中的基于近邻的局部分类器引入到骨肉瘤的数据分类中来,极大的提高了分类的自动性以及效果。然而由于骨肉瘤数据可能存在稀疏、噪声和非平衡等问题,如此算法的效果往往不佳。本文根据认知的相对性规律提出了基于相对变换的局部均值分类算法,通过相对变换将数据的原始空间变换到相对空间,在相对的空间中度量数据的相似性更符合人们的直觉,从而提高了数据之间的可区分性,同时在一定条件下相对变换还能抑制噪声的影响。实验结果表明,相对局部均值算法具有非常好的分类效果,可以有效地辅助临床医生。 As a common disease in department of orthopedics, osteosarcoma is a malignant tumor with high malignancy and poor prognosis. Because the disease often occurs in young people and is very harmful, therefore, early detection, early diagnosis and early treatment are key to the treatment of osteosarcoma. In this paper, local classifier based the nearest neighbor is introduced into the classification of osteosarcoma data, which greatly improves the classification of the automatic and effect. However when dealing with the sparse, noisy and imbalance data, it cannot guarantee to obtain good performance. Based on the relative cognitive law, this paper proposes a feasible strategy called relative local mean center classifier by using the relative transformation to local mean center classifier. The relative space is constructed which may be more line with people’s in-tuition. It should be indicated that relative transformation can improve the distinguishing ability among data points and diminish the impact of noise on classification. The experimental result shows that relative local mean center classifier has a very good classification effect, and can effec-tively assist clinicians.
蔡先发1,胡珊2,李洁1
1广东药科大学医药信息工程学院,广东 广州
2中山大学中山医学院计算机中心,广东 广州
收稿日期:2017年4月6日;录用日期:2017年4月27日;发布日期:2017年4月30日
作为一种常见的骨科疾病,骨肉瘤属于恶性程度甚高、预后极差且转移较快的骨原发性恶性肿瘤。由于该病多发于青少年且危害很大,因此,早期发现、早期诊断和早期治疗便成为治疗骨肉瘤的关键。将机器学习中的基于近邻的局部分类器引入到骨肉瘤的数据分类中来,极大的提高了分类的自动性以及效果。然而由于骨肉瘤数据可能存在稀疏、噪声和非平衡等问题,如此算法的效果往往不佳。本文根据认知的相对性规律提出了基于相对变换的局部均值分类算法,通过相对变换将数据的原始空间变换到相对空间,在相对的空间中度量数据的相似性更符合人们的直觉,从而提高了数据之间的可区分性,同时在一定条件下相对变换还能抑制噪声的影响。实验结果表明,相对局部均值算法具有非常好的分类效果,可以有效地辅助临床医生。
关键词 :k近邻分类器,局部均值算法,相对变换,相对局部均值算法
Copyright © 2017 by authors and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
作为一种常见的骨科疾病,骨肉瘤属于恶性程度甚高、预后极差且转移较快的骨原发性恶性肿瘤。由于该病多发于青少年且危害很大,因此,早期发现、早期诊断和早期治疗便成为治疗骨肉瘤的关键。在机器学习,计算机视觉,图像处理等领域中,将事物按照一定的特征或者规律进行分类是非常重要的一个步骤。将机器学习中的分类器引入到骨肉瘤的数据分类中来,极大的提高了分类的自动性以及效果。过去的数十年间,产生了大量的分类算法,经典的比如k近邻算法(k nearest neighbors, KNN)及其各种变体 [
考虑到生活中存在大量稀疏,噪声和非平衡数据,这些将极大地影响到分类器的性能。本文根据认知的相对性规律提出了基于相对变换的局部均值分类算法,通过相对变换将数据的原始空间变换到相对空间,在相对的空间中度量数据的相似性更符合人们的直觉,从而提高了数据之间的可区分性,同时在一定条件下相对变换还能抑制噪声的影响。基于相对变换的局部均值分类算法的主要优点如下:1) 将善于区分噪声,稀疏和非平衡数据的相对变换引入到分类器中来,极大地提升了分类器的性能;2) 将基于相对变换的局部均值分类器应用到骨肉瘤的分类中来,表明机器学习在临床辅助方面具有一定的作用。
作为KNN分类器的改进版本,由Y. Mitani等人于2006年提出的局部均值算法是一个局部的、懒惰的、非参数的分类器 [
步骤1:在每个类中选出与测试样本最近的k个样本;
步聚2:对于每个类,由选取的k个最近邻样本,计算出针对每个类的局部平均向量;
步骤3:对于每个类,计算测试样本与局部平均向量之间的欧氏距离;
步聚4:根据测试样本与每个类的局部平均向量计算出的距离,将测试样本分类到具有最小欧氏距离的类别中去。
相比机器而言,人类在区分稀疏、噪音以及非平衡数据方面具有一种与生俱来的本领,这点值得机器向人类学习。当前的识别人脸、基因分类的机器学习方法常常需要数百甚至是上千的样本做训练,而人类视觉识别仅仅需要少量的样本就可以 [
由于相对变换并不是等距变换,而是一种具有放大作用的变换,因此更加容易凸显数据间的拓扑结构,并因此提高了数据之间的可区分性,如图2所示。在原始空间中由于
为模型化该认知规律,以原始数据空间
图1. 人类视觉的相对性
图2. 相对变换能抑制噪声的影响,(a) 原始空间,(b) 构造的相对空间
算法 RLMC(x,X,k)
/* x为测试样本,X为训练样本集,k为在每个类中选取的最近邻样本数 */
步骤1:在每个类
步骤2:用下面的方法构建相对空间:
步聚3:对于每个类
步骤4:对于每个类
步聚5:根据测试样本x与每个类
实验中选用正常人长骨CR图像和长骨骨肉瘤图像,图像格式均为DICOM格式。有效样本共计110例,其中骨肉瘤患者为58例,正常人52例。由于这些图像来源于不同的机器,图像的分别率会有所不同,因此不同图像的感兴趣区域的分别率差异有可能成数量级变化,而该差异对纹理特征的提取结果会有较大的影响。因此对图像进行了预处理,以降低分辨率差异造成的不良影响。
为验证我们提出的方法的有效性,在骨肉瘤数据集上进行实验。实验中将本文提出的相对局部均值分类器与几种懒惰、非参数的方法进行比较,他们分别是:KNN、HKNN、LMC和LPC。从表1中的测试结果可以看到,在骨肉瘤数据上,与其它4个算法相比,RLMC算法具有最好的表现,说明该方法具有相当好的分类性能。说明通过相对变换构造的相对空间,在相对空间里面选择近邻更加符合人们的直觉,从而提高了数据的分类效果。
数据 | KNN | HKNN | LMC | LPC | RLMC |
---|---|---|---|---|---|
骨肉瘤 | 2.54 ± 0.025 | 52.72 ± 0.13 | 47.27 ± 0.012 | 47.15 ± 0.05 | 0.36 ± 0.49 |
表1. 骨肉瘤数据集上各算法的平均分类错误率
本文根据认知的相对性规律提出了基于相对变换的局部均值分类算法,通过相对变换将数据的原始空间变换到相对空间,在相对的空间中度量数据的相似性更符合人们的直觉,从而提高了数据之间的可区分性,同时在一定条件下相对变换还能抑制噪声的影响。基于相对变换的骨肉瘤分类算法具有非常好的分类效果,可以有效地辅助临床医生。同时,实验表明,将认知规律结合当前的分类器可以有效地提升分类性能,未来将探索更多的认知规律并且将它们应用到分类器中来。
广东省自然科学资金(2015A030310267, 2016A030310300)资助。
蔡先发,胡 珊,李 洁. 基于相对变换的骨肉瘤分类算法 The Classification of Osteosarcoma Based on Relative Transformation[J]. 数据挖掘, 2017, 07(02): 46-50. http://dx.doi.org/10.12677/HJDM.2017.72005
https://doi.org/10.1016/j.knosys.2011.07.010
https://doi.org/10.1109/TIP.2009.2023706
https://doi.org/10.1109/TSMC.1985.6313426
https://doi.org/10.1109/21.376493
https://doi.org/10.1109/TPAMI.2006.126
https://doi.org/10.1016/j.patrec.2005.12.016
https://doi.org/10.1109/TSMCB.2007.908363
https://doi.org/10.1016/j.neucom.2008.02.009