乳腺癌是世界上女性最常见的恶性肿瘤,治愈乳腺癌的关键在于早期的诊断和治疗。及时诊断肿瘤对临床治疗具有重要意义,因此,找到一种能够准确识别肿瘤类型并尽早进行治疗的算法变得尤为关键。本文介绍了在威斯康星州诊断乳腺癌数据集上使用了lasso算法进行特征筛选,然后基于这些特征训练了随机森林分类器来预测乳腺癌的良性或恶性。结果显示,预测模型的准确率为95.32%,召回率为92.06%,F1分数为93.55%,通过这些指标的综合评估,证明这种方法可以有效地进行乳腺癌良恶性的预测,具有潜在的应用价值。总的来说,文中提供了一种有力的方法,可以对癌症数据进行预测,并优化分类器的性能。这种方法可以帮助医生更好地诊断乳腺癌,促进更好的治疗和预防,对乳腺癌的研究具有重要的意义。 Breast cancer is the most common malignant tumor in women worldwide, and early diagnosis and treatment are key to curing breast cancer. Timely detection of tumors is of great significance for clinical treatment, so finding an algorithm that can accurately identify tumor types and start treatment early is crucial. This article introduces the use of the lasso algorithm for feature selection on a breast cancer diagnostic dataset in Wisconsin. Based on these features, a random forest classifier was trained to predict the benign or malignant nature of breast cancer. The results showed an accuracy of 95.32%, a recall rate of 92.06%, and an F1 score of 93.55% for the predictive model. Through a comprehensive evaluation of these metrics, it is proven that this method can effectively predict the benign or malignant nature of breast cancer and has potential practical value. In summary, the article provides a powerful method for predicting cancer data and optimizing the performance of classifiers. This approach can help doctors better diagnose breast cancer, promote better treatment and prevention, and has significant implications for breast cancer research.
乳腺癌是世界上女性最常见的恶性肿瘤,治愈乳腺癌的关键在于早期的诊断和治疗。及时诊断肿瘤对临床治疗具有重要意义,因此,找到一种能够准确识别肿瘤类型并尽早进行治疗的算法变得尤为关键。本文介绍了在威斯康星州诊断乳腺癌数据集上使用了lasso算法进行特征筛选,然后基于这些特征训练了随机森林分类器来预测乳腺癌的良性或恶性。结果显示,预测模型的准确率为95.32%,召回率为92.06%,F1分数为93.55%,通过这些指标的综合评估,证明这种方法可以有效地进行乳腺癌良恶性的预测,具有潜在的应用价值。总的来说,文中提供了一种有力的方法,可以对癌症数据进行预测,并优化分类器的性能。这种方法可以帮助医生更好地诊断乳腺癌,促进更好的治疗和预防,对乳腺癌的研究具有重要的意义。
机器学习,Lasso,随机森林,ROC曲线
Yujun Guo
School of Mathematics and Statistics, Nanjing University of Information Science and Technology, Nanjing Jiangsu
Received: Sep. 5th, 2023; accepted: Oct. 16th, 2023; published: Oct. 24th, 2023
Breast cancer is the most common malignant tumor in women worldwide, and early diagnosis and treatment are key to curing breast cancer. Timely detection of tumors is of great significance for clinical treatment, so finding an algorithm that can accurately identify tumor types and start treatment early is crucial. This article introduces the use of the lasso algorithm for feature selection on a breast cancer diagnostic dataset in Wisconsin. Based on these features, a random forest classifier was trained to predict the benign or malignant nature of breast cancer. The results showed an accuracy of 95.32%, a recall rate of 92.06%, and an F1 score of 93.55% for the predictive model. Through a comprehensive evaluation of these metrics, it is proven that this method can effectively predict the benign or malignant nature of breast cancer and has potential practical value. In summary, the article provides a powerful method for predicting cancer data and optimizing the performance of classifiers. This approach can help doctors better diagnose breast cancer, promote better treatment and prevention, and has significant implications for breast cancer research.
Keywords:Machine Learning, Lasso, Random Forest, ROC Curve
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
癌症是人类致死率居全球第一位的疾病。癌症会在人体的某个部位形成一个被称为“肿瘤”的组织。这些肿瘤可能会长在人体的任何一个器官,比如大脑,胸部,肾脏等等。年龄、性别、遗传、生活质量等是影响肿瘤发生和扩散的主要因素。医生可从病人身上取下活体组织切片或从手术中取得局部组织,来判断其是否患癌。一旦诊断出肿瘤,就可以采用外科手术,化学疗法和放射疗法相结合的方法来治疗。大部分癌症都是可以治疗的,而且随着科学和技术的发展,已经研制出了很多专门用于某些癌症的特殊药物。但是一旦肿瘤扩散转移到身体的其他部位,侵入或摧毁其它细胞和组织时,则很难治愈,严重时可致患者死亡。肿瘤可分为良性肿瘤和恶性肿瘤。良性肿瘤的肿瘤细胞不会出现转移或者侵入到周围组织的现象,这类肿瘤对人体一般没有危险,不会导致死亡。恶性肿瘤则更加的危险,恶性肿瘤的起因是人体内某些细胞失去了正常的增殖能力,分裂和侵袭其它细胞。大部分的恶性肿瘤都会对身体的正常功能造成一定的影响,主要表现为癌细胞会在淋巴系统中扩散,然后继续生长,破坏正常的组织,使新生的血管供自己所需,从而引起贫血。恶性肿瘤严重威胁着人们的健康。早期发现癌症并且进行治疗是非常关键的,因此,研究者们试图建立智能系统帮助医生对癌症进行早期诊断。
2018年,中国肿瘤研究中心发表了一份中国肿瘤病死率与生存率统计,据统计数据显示,2014 年全国新发的恶性肿瘤病例约有380.4万例,死亡病例高达229.6万例,其中乳腺癌在女性癌症中发病率占第一,每年有约27.9万的新发病例,而且在城镇居民中的比例更高 [
乳腺癌的早期诊断与治疗对提高肿瘤的治愈率、降低病死率、降低患者的经济负担具有重要意义。因此,对乳腺癌的研究有着非常重要的意义。常规的乳腺超声检查和CT等检查方法会受到医生主观判断的影响,由于医师的诊断经验及知识水平等因素,会对结果产生较大的影响。计算机辅助诊断 [
综上所述,对乳腺癌良恶性分类的研究不仅有助于协助医生的诊断,还可以在早期发现乳腺癌且增加治疗方案以及提高临床疗效,降低患者死亡率,对全球乳腺癌的防治有着重要的科学意义。本文运用合适的算法筛选出能够用于乳腺癌早期预警的最佳特征子集,并在此基础上构建辅助诊断模型,为临床医生提供更多的参考。
Lasso方法最早由Robert Tibshiran于1996年提出 [
(1)
考虑线性模型的参数 β 和 σ 2 的估计问题,这里 y 是 n × 1 观测向量, X 是 n × p 的设计矩阵, β 是 p × 1 未知参数向量, ϵ 为随机误差, σ 2 为误差的方差。
估计参数向量的基本方法是最小二乘法,其思想是使得误差向量 ϵ = y − X β 尽可能的小,也就是使
Q ( β ) = ‖ ϵ ‖ 2 = ‖ y − X β ‖ 2 = ( y − X β ) ′ ( y − X β ) (2)
到达最小。最后,使得上式达到最小值的解为
β ^ = ( X ′ X ) − 1 X ′ y (3)
向量的范数:
向量的1-范数: ‖ X ‖ 1 = ∑ i = 1 n | x i | 向量内各元素的绝对值之和
向量的2-范数 ‖ X ‖ 2 = ( ∑ i = 1 n x i 2 ) 1 2 = ∑ i = 1 n x i 2 元素的平方和再开平方
Lasso就是在目标函数 Q ( β ) 后面加了一个1-范数
Q ( β ) = ‖ y − X β ‖ 2 + λ ‖ β ‖ 1 ⇌ arg min ‖ y − X β ‖ 2 s .t . ∑ | β j | ≤ s (4)
高维数据即 p > n 的情况,现在随着数据采集能力的提高,特征数采集越来越多,但是其中可能有很多特征是不重要的,系数很小,如果用岭回归,不重要的变量也会被估出来,而用Lasso方法,就可以把这些不重要变量的系数压缩为0,既实现了较为准确的参数估计,也实现了变量降维。
LASSO的计算相对复杂。由于惩罚项中含有绝对值,函数的导数是连续不光滑的,所以无法进行求导并使用梯度下降优化。坐标下降法是每次选择一个维度的参数进行一维优化,然后不断的迭代对多个维度进行更新直到函数收敛。因此可以使用坐标下降法计算回归系数。
RSS部分:
R S S ( w ) = ∑ i = 1 m ( y i − ∑ j = 1 n x i j β j ) 2 (5)
求导:
∂ R S S ( β ) ∂ w k = − 2 ∑ i = 1 m x i k ( y i − ∑ j = 1 n x i j β j ) = − 2 ∑ i = 1 m ( x i k y i − x i k ∑ j = 1 , j ≠ k n x i j β j − x i k 2 β k ) = − 2 ∑ i = 1 m x i k ( y i − ∑ j = 1 , j ≠ k n x i j β j ) + 2 β k ∑ i = 1 m x i k 2 (6)
令 p k = ∑ i = 1 m x i k ( y i − ∑ j = 1 , j ≠ k n x i j β j ) , z k = ∑ i = 1 m x i k 2 得到:
∂ R S S ( β ) ∂ β j = − 2 p k + 2 z k β k ∂ R S S ( β ) ∂ β j = − 2 p k + 2 z k β k (7)
正则项:
λ ∂ ∑ i = 1 n | β j | ∂ β k = { − λ β k < 0 [ − λ , λ ] β k = 0 λ β k > 0 (8)
这样整体的偏导数:
∂ f ( β ) ∂ β k = 2 z k β k − 2 p k + { − λ β k < 0 [ − λ , λ ] β k = 0 λ β k > 0 = { 2 z k β k − 2 p k − λ β k < 0 [ − 2 p k − λ , − 2 p k + λ ] β j = 0 2 z k β k − 2 p k + λ β k > 0 (9)
令 ∂ f ( β ) ∂ β k = 0 得到
β k ^ = { ( p k + λ / 2 ) / z k p k < − λ / 2 0 − λ / 2 ≤ p k ≤ λ / 2 ( p k − λ / 2 ) / z k p k > λ / 2 (10)
通过上面的公式我们便可以每次选取一维进行优化并不断迭代得到最优回归系数。
最小角回归法(LARS)是Bradley Efron于2004年的论文《Least Angle Regression》中提出的一种用于高维数据的回归算法 [
随机森林是一种机器学习算法 [
基尼指数(Gini index):随机森林使用“基尼指数”来选择划分属性。基尼指数越小,则数据集的纯度越高。对于给定的集合D,其基尼指数为
Gini ( D ) = 1 − ∑ k = 1 k ( | C k | | D | ) 2 (11)
这里, C k 是D中属于第k类的样本子集,k是类的个数。
在实际的机器学习中,特征的数量通常很多,而且这些特征之间并不是线性的,而是相互依存的,这就造成了对特征的分析和训练所需要的时间变得更长,造成了“维度灾难”,模型变得更复杂,模型的推广能力变得更差。为此,我们拟通过去除与分类无关或冗余的特征,降低特征数目,并对其进行有效的降维,以达到提高预测精度和降低计算时间的目的 [
过滤法是利用样本数据自身的固有属性,比如距离、相关性等,来作为评价,模型学习中具有重要意义或相关性,且与分类算法无关。它的优势在于,它只与数据有关,并且具有快速的计算速度。能够快速地获得了特征子集合。但其缺点是该方法与分类算法无关,并且如果没有注意到所选择的特征子集中的相互关系,就会在最终的特征子集中产生大量的冗余特征,增大了运算的复杂性,从而降低了算法的效率。
缠绕法,它是按照分类算法的某个性能指标,对一个特征或者一个特征子集进行评价,一般以分类准确率作为一个评估函数,选取最佳的特征子集为最后的特征集。因为缠绕法与不同的分类算法相结合,所以缠绕法的分类效果要好得多。但是缠绕法在选取特征的时候要反复运用分类法,提高了运算的复杂性,而且筛选出来的基因也不具有明显的生物意义。
嵌入法在分类算法中完整地嵌入特征选择过程,嵌入法的操作速度要比缠绕法快得多,并且在选取的过程中和理论上都有很大的差异。但是和缠绕方法一样,嵌入方法取决于学习算法,所以泛化能力较差。
以上是对机器学习中常用的特征选择算法的介绍,与之相对应的还有统计领域中常用的特征选择算法。在统计学中,普遍的统计模型是通过数学统计模型来建立的。将变量之间的函数关系用数学方程式的形式表达出来,通常计算出模型的残差平方和大小用来评估模型的契合度情况。过拟合模型的复杂性一般都很高,因此采用“惩罚”概念,并通过增加惩罚项来限制参数空间的大小,从而减少模型的规模。
本文的数据来源于威斯康星州诊断乳腺癌数据集(WDBC) [
在数据集中,通过对乳腺肿瘤的细针穿刺得到的数字化图像进行计算,得出特征值,该数据集的特征值反映了样本图像中细胞核的形态学特征。对于每个样本图像特征,都会计算出其平均、方差和最大值,从而得到30个特征。例如,1号特征是平均半径,11号特征是半径标准差,21号特征是最大半径。表1显示出前十个特征名及其含义解释。
特征 | 解释 |
---|---|
diagnosis | 诊断标签:malignant =恶性,benign =良性 |
radius_mean | 半径,即细胞核从中心到周边点的距离平均值 |
texture_mean | 纹理(灰度值的标准偏差)平均值 |
perimeter_mean | 细胞核周长平均值 |
area_mean | 细胞核面积平均值 |
smoothness_mean | 平滑度(半径长度的局部变化)平均值 |
compactness_mean | 紧凑度(周长^2/面积−1.0)平均值 |
concavity_mean | 凹度(轮廓凹部的严重程度)平均值 |
concave points_mean | 凹点(轮廓凹部的数量)平均值 |
symmetry_mean | 对称性平均值 |
fractal_dimension_mean | 分形维数−1平均值 |
表1. 前十个特征
本文使用python软件首先对特征数据用lasso回归筛选出部分特征,在 Scikit-learn包中,默认情况下Lasso 回归使用最小角回归算法进行实现。具体来说,该算法在每一轮迭代中,会选择一对训练数据与特征,并将该特征向量进行旋转,使其与目标数据向量之间的夹角最小。然后,Lasso回归算法会将特征系数向量的范数逐步增大,并逐渐压缩特征系数的大小,直到找到最优的正则化参数,使得算法能够实现最小化代价函数。
随后用lasso算法得到的特征用随机森林算法对训练集进行训练,再用测试集进行测试,得到准确率,混淆矩阵,F1值,ROC曲线等对模型进行评价。
首先对数据进行缺失值的查询,结果发现无缺失值,对所有特征数据进行标准化。数据集共569条数据,32列,其中有30个特征,剩余两列分别是ID和Diagnostic。
图1是样本数据分布情况,每个样本的标签为乳腺良性肿瘤与恶性肿瘤,共有357个良性肿瘤,212个恶性肿瘤。
图2是特征的小提琴图。小提琴图是数据可视化中常用的一种图表类型。它可以用来展示数据的分布情况,特别是在比较不同组数据分布时非常有用。小提琴图主要通过展示数据的四个关键指标:最小值、最大值、中位数和四分位数来反映数据的分布情况,从而帮助人们更好地理解和分析数据,支持数据驱动的决策和分析。图中横坐标是特征的名称,纵坐标是标准化后特征的数据情况,其中黄色部分代表的是恶性数据,绿色部分代表的是良性数据,在图2中可以大致看出每个特征的良恶性之间的关系,例如特征fractal_dimension_worst和symmetry_worst的黄色部分和绿色部分分布很相似,可大致判断出该特征的良恶性数据代表性不强,准确的情况还需要通过检验等方法来判断。
图1. 数据分布柱状图,B代表良性肿瘤,M代表恶性肿瘤
图2. 小提琴图,显示良性和恶性肿瘤三十个特征的分布情况
图3. 热力图,可显示出特征之间的相关性情况
图3是30个特征的热力图,热力图是数据可视化中一种常用的图表类型,它可以用来展示数据的分布情况,热力图可以通过不同的颜色呈现数据的相关程度。在该图中,颜色越深说明特征之间相关性越差,颜色越浅说明特征之间相关性越强。
lasso回归会使得某些系数直接为0,即完全忽略掉一些系数,可看作是一种自动化的特征选择。lasso回归也有一个正则化参数alpha,可以控制系数趋向于0的强度,下图4中展示的是不同的变量随着alpha惩罚后,其系数的变化,我们要保留的就是系数不为0的变量,alpha值不断增大系数才变为0的变量在模型中越重要。可以设置更大的alpha值,就会看到更多的系数被压缩为0了。将数据按照7:3分为训练集和测试集,对训练集进行随机森林模型的拟合,再将测试集数据输入到训练好的模型中,对数据进行分类,并使用五折交叉验证得到了综合预测表现,通过准确性、召回率、F1值、AUC 值等方面对算法进行评估,得到相对较好的结果。
图4. 在lasso算法中不同alpha值的系数变化
首先取 alpha = 10 − 1 ,得到的特征为area_mean, concave points_mean, fractal_dimension_mean, texture_se,使用随机森林算法对训练集进行拟合,随机森林是一种集成学习方法,由多个决策树组成。对于每个决策树,通过使用Lasso选中的特征,对数据进行划分和分类。最终,每个树的分类结果会被综合起来,以获得最终的分类结果。这种方法可以结合Lasso的特征选择优势和随机森林的集成优势,提高分类性能和模型的稳健性。再将测试集数据输入到训练好的模型中,测试集结果如下图5所示。
图5展示了参数 alpha = 10 − 1 时的混淆矩阵和ROC曲线 [
结果表明,所提出的模型在测试集上取得了显著的性能提升。具体而言,我们的模型达到了95.32%的准确率,说明模型能够高度准确地预测样本的分类标签。此外,模型召回率为92.06%,表明模型对正类样本能够有较好的识别能力。我们进一步综合准确率和召回率计算出F1分数,结果为93.55%,进一步验证了模型的优越性。
图5. 在 alpha = 10 − 1 时的混淆矩阵和ROC曲线
图6. 在 alpha = 10 − 2 时的混淆矩阵和ROC曲线
随机森林特征系数 [
特征系数可以通过不同的度量方式来计算,比如基尼系数、平均不纯度减少等。特征系数的计算方式可以根据具体的随机森林实现而有所不同,但一般情况下,特征系数越高,则该特征对于模型的预测贡献越大。它可以帮助我们了解随机森林中各个特征的重要性排序,进而进行特征选择、特征工程或可视化分析等相关任务。表2中coefficients是特征系数绝对值,是用来度量特征重要性的。因此,通过输出这些系数绝对值并从大到小排序,我们可以得知哪些特征是最为重要的,即它们在乳腺癌预测中发挥更大的作用。这对我们指导实际应用具有很大的参考价值。
features | coefficients |
---|---|
radius_worst | 0.141582 |
concave points_mean | 0.092434 |
concave points_worst | 0.08667 |
texture_worst | 0.065088 |
concavity_worst | 0.047893 |
symmetry_worst | 0.045319 |
fractal_dimension_mean | 0.021503 |
smoothness_worst | 0.020413 |
radius_se | 0.018654 |
smoothness_se | 0.012053 |
concavity_se | 0.009797 |
texture_mean | 0.004359 |
compactness_se | 0.003984 |
表2. 最终选中的特征排序情况
肿瘤是威胁人类生命的重大疾病,对于女性而言,乳腺癌是死亡率最高的癌症之一。在早期阶段,乳腺癌能够被治疗,甚至被治愈 [
本文针对乳腺癌疾病从两方面来进行研究,首先提出了lasso算法,对数据进行特征筛选与提取,随后对训练集进行随机森林模型的拟合,对数据进行分类,得到的分类结果相对较好,并使用交叉验证得到了不同数据集拆分下的综合预测表现,通过准确性、召回率、F1值、AUC值等方面对算法进行评估,得到相对较好的结果。
本工作得到了国家自然科学基金项目(批准号:61902192)、江苏省高层次创新创业项目(苏人办文,编号:[
郭昱君. 机器学习算法在乳腺癌预测中的应用Application of Machine Learning Algorithms in Breast Cancer Prediction[J]. 运筹与模糊学, 2023, 13(05): 5464-5475. https://doi.org/10.12677/ORF.2023.135546
https://doi.org/10.1111/j.2517-6161.1996.tb02080.x
https://doi.org/10.1214/009053604000000067
https://doi.org/10.24432/C5DW2B
https://doi.org/10.1016/j.patrec.2005.10.010
https://doi.org/10.1023/A:1010933404324