SA Statistics and Application 2325-2251 Scientific Research Publishing 10.12677/SA.2024.131016 SA-81323 SA20240100000_20257482.pdf 数学与物理 基于随机生存森林的低级别脑胶质瘤复发预测模型 Prediction Model of Recurrence of LGG Based on Random Survival Forest 丹怡 1 * 1 2 裕隆 1 2 宇轩 1 2 金山 1 2 重庆医科大学公共卫生学院,重庆 null 06 02 2024 13 01 151 163 © Copyright 2014 by authors and Scientific Research Publishing Inc. 2014 This work is licensed under the Creative Commons Attribution International License (CC BY). http://creativecommons.org/licenses/by/4.0/

背景:低级别脑胶质瘤(LGG)患者在治疗后仍可能面临复发的风险。本研究旨在考虑复发与死亡相关性的基础上分析影响LGG患者复发的因素,并建立复发预测模型。方法:收集来自TCGA数据库LGG患者的临床数据,最终纳入457例LGG患者。建立联合脆弱模型分析复发危险因素,采用随机生存森林(Random Survival Forest,RSF)的方法建立LGG复发预测模型,同时建立Cox模型作为比较。结果:主要治疗结局、年龄、ICD-O-3组织学编码、首次症状持续时间、术后、肿瘤组织学分级和放射治疗作为预测因子纳入LGG复发预测模型。与Cox模型相比,RSF模型具有较好的区分度和校准度,具体表现为,基于bootstrap重抽样数据集计算1、3和、5年RSF的C指数分别为0.813、0.748和0.745,Cox分别为0.824、0.724和0.727,RSF在1、3、5年的AUC值分别为0.824、0.746和0.754,而Cox分别为0.833、0.713和0.730;校准曲线也表明RSF模型表现更优。结论:复发和死亡事件不应独立看待,RSF在复杂生存数据的预测建模方面具有优势,未来期待更多探索预测脑胶质瘤患者复发的方法和工具,且这些方法能得到在临床上的实践应用。 Background: Low-Grade Glioma (LGG) patients face risks of recurrence after treatment. Our study aims to analyze recurrence risk factors, considering the association between recurrence and death, and to develop an improved recurrence prognosis prediction model for LGG patients. Methods: We collected clinical data from TCGA, 457 LGG patients were finally included. We developed a Joint Frailty model to analyze recurrence risk factors. We employed the Random Survival Forest (RSF) model for recurrence prognosis prediction, with a Cox model for comparison. Results: Prognostic factors, including primary therapy outcome, age, ICD-O-3 histology, first presenting symptom dura-tion, postoperative, neoplasm histologic grade, and radiation therapy, were integrated into the LGG recurrence prediction model. The RSF model excelled in discrimination and calibration compared to the Cox model. RSF’s C-index for 1, 3, and 5 years on bootstrap validation was 0.813, 0.748, and 0.745, respectively, versus Cox’s 0.824, 0.724, and 0.727. RSF’s AUC values for 1, 3, and 5 years by bootstrapping were 0.824, 0.746, and 0.754, respectively, versus Cox's 0.833, 0.713, and 0.730. The calibration curve also favored the RSF model. Conclusions: Recurrence and death events should not be treated independently. RSF has advantages for predictive modeling of complex survival data. We foresee further research to enhance LGG recurrence prediction, with potential practical clinical ap-plications in the future.

低级别脑胶质瘤,复发预测模型,随机生存森林,联合脆弱模型,TCGA, Low-Grade Glioma Recurrence Prediction Model Random Survival Forest Joint Frailty Model TCGA
摘要

背景:低级别脑胶质瘤(LGG)患者在治疗后仍可能面临复发的风险。本研究旨在考虑复发与死亡相关性的基础上分析影响LGG患者复发的因素,并建立复发预测模型。方法:收集来自TCGA数据库LGG患者的临床数据,最终纳入457例LGG患者。建立联合脆弱模型分析复发危险因素,采用随机生存森林(Random Survival Forest,RSF)的方法建立LGG复发预测模型,同时建立Cox模型作为比较。结果:主要治疗结局、年龄、ICD-O-3组织学编码、首次症状持续时间、术后、肿瘤组织学分级和放射治疗作为预测因子纳入LGG复发预测模型。与Cox模型相比,RSF模型具有较好的区分度和校准度,具体表现为,基于bootstrap重抽样数据集计算1、3和、5年RSF的C指数分别为0.813、0.748和0.745,Cox分别为0.824、0.724和0.727,RSF在1、3、5年的AUC值分别为0.824、0.746和0.754,而Cox分别为0.833、0.713和0.730;校准曲线也表明RSF模型表现更优。结论:复发和死亡事件不应独立看待,RSF在复杂生存数据的预测建模方面具有优势,未来期待更多探索预测脑胶质瘤患者复发的方法和工具,且这些方法能得到在临床上的实践应用。

关键词

低级别脑胶质瘤,复发预测模型,随机生存森林,联合脆弱模型,TCGA

Prediction Model of Recurrence of LGG Based on Random Survival Forest<sup> </sup>

Danyi Mao, Qing Zeng*, Yulong Yang, Yuxuan Chen, Jinshan Qian

School of Public Health, Chongqing Medical University, Chongqing

Received: Dec. 19th, 2023; accepted: Feb. 21st, 2024; published: Feb. 27th, 2024

ABSTRACT

Background: Low-Grade Glioma (LGG) patients face risks of recurrence after treatment. Our study aims to analyze recurrence risk factors, considering the association between recurrence and death, and to develop an improved recurrence prognosis prediction model for LGG patients. Methods: We collected clinical data from TCGA, 457 LGG patients were finally included. We developed a Joint Frailty model to analyze recurrence risk factors. We employed the Random Survival Forest (RSF) model for recurrence prognosis prediction, with a Cox model for comparison. Results: Prognostic factors, including primary therapy outcome, age, ICD-O-3 histology, first presenting symptom duration, postoperative, neoplasm histologic grade, and radiation therapy, were integrated into the LGG recurrence prediction model. The RSF model excelled in discrimination and calibration compared to the Cox model. RSF’s C-index for 1, 3, and 5 years on bootstrap validation was 0.813, 0.748, and 0.745, respectively, versus Cox’s 0.824, 0.724, and 0.727. RSF’s AUC values for 1, 3, and 5 years by bootstrapping were 0.824, 0.746, and 0.754, respectively, versus Cox's 0.833, 0.713, and 0.730. The calibration curve also favored the RSF model. Conclusions: Recurrence and death events should not be treated independently. RSF has advantages for predictive modeling of complex survival data. We foresee further research to enhance LGG recurrence prediction, with potential practical clinical applications in the future.

Keywords:Low-Grade Glioma, Recurrence Prediction Model, Random Survival Forest, Joint Frailty Model, TCGA

Copyright © 2024 by author(s) and beplay安卓登录

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

恶性肿瘤已经成为严重威胁人群健康的主要公共卫生问题之一。脑胶质瘤作为最为常见的中枢神经系统原发肿瘤,约占恶性脑肿瘤的80%,在美国每年的年龄调整死亡率为4.25/10万 [ 1 ] ,严重威胁生命健康,造成巨大疾病负担。根据2016年世界卫生组织发布的《中枢神经系统肿瘤分类标准》 [ 2 ] ,脑胶质瘤分为四级,其中I~II级为低级别脑胶质瘤(Low-grade glioma, LGG),多为良性,III~IV级为高级别脑胶质瘤(High-grade glioma, HGG),恶性程度高,尤其是IV级的胶质母细胞瘤(GBM)。尽管LGG恶性程度较低,但肿瘤具有潜在的浸润性并可进展为GBM给患者带来严重后果 [ 3 ] 。目前临床上的治疗方式涉及手术、放疗、化疗、靶向治疗、免疫治疗等 [ 4 ] [ 5 ] 。最大范围安全切除联合放疗和替莫唑胺(Temozolomide, TMZ)化疗是治疗脑胶质瘤的标准疗法,但经标准疗法治疗的脑胶质瘤患者预后可能仍然很差,复发率高 [ 6 ] 。研究者也越来越重视评估手术后短期复发的风险和LGG患者进展为HGG的可能性 [ 7 ] [ 8 ] 。复发往往会带来死亡发生的更大风险,同时由于死亡的发生也会使得后续的复发不可能再次出现,若将复发与死亡看成是相互独立的事件,忽略复发风险与死亡之间的相关性,可能会造成对复发危险因素评估的不准确,因此联合复发事件与终点事件对于得出准确的结论至关重要。有学者 [ 9 ] 将因乳腺癌死亡看作是与乳腺癌复发相关的终点事件,进一步的,有学者 [ 10 ] 解释了乳腺癌复发与死亡之间的关系,并评估了可能影响复发和死亡的风险因素;此外,已有研究联合癌症的复发和死亡事件,以确定其危险因素 [ 11 ] [ 12 ] [ 13 ] 。在LGG预后的相关研究中,主要关注患者的生存预后,分析患者生存预后的潜在影响因素 [ 14 ] [ 15 ] ,评估并预测其总体生存情况 [ 16 ] ;有学者 [ 17 ] 探讨了脑胶质瘤患者的临床特征与术后短期复发风险之间的关系。但总体来看,目前对于脑胶质瘤复发预测的研究,建模方法局限,且缺乏对复发与死亡相关性的探讨。本研究基于TCGA低级别脑胶质瘤的临床数据,建立联合脆弱模型,在考虑肿瘤复发与死亡之间相关性的基础上,分析影响脑胶质瘤患者复发的危险因素,基于此,采用随机生存森林的方法建立复发预测模型,以期为脑胶质瘤患者疾病进程及预后生存状况的研究提供新思路。

2. 数据与方法 2.1. 数据来源与处理

数据来源于癌症基因组图谱(The Cancer Genome Atlas, TCGA)公共数据库(https://www.cancer.gov/tcga),包括低级别脑胶质瘤患者数据和临床随访数据(项目代码为“LGG”)。排除了缺失完整生存结局和生存时间的患者记录,同时排除了临床信息不完整的记录。最终,本研究纳入了457名LGG患者,总计573条观测记录(其中80名患者存在包括复发或死亡事件的多条记录)。

本研究中假设数据的缺失机制为随机缺失。对于缺失比例未超过20%阈值的缺失变量,采用随机森林的方法进行缺失值填补。随机森林通过构建多个决策树来填补缺失值,使填充后的数据具有随机性和不确定性,能更好地反映这些未知数据的真实分布。

2.2. 统计分析 2.2.1. 复发危险因素分析

通过建立联合脆弱模型,分析影响复发的危险因素。联合脆弱模型(Joint Frailty, JF)可以通过联合复发事件和死亡事件来分析复发与死亡之间的相关性,并进一步研究事件的影响因素,该模型由Virginie Rondeau等 [ 18 ] 提出,具体公式如下:

{ r i j ( t | v i ) = r 0 ( t ) exp ( X i j β 1 T + ω i ) = v i r 0 ( t ) exp ( X i β 1 T )                                                                   ( 1 ) λ i j ( t | v i ) = λ 0 ( t ) exp ( X i β 2 T + α ω i ) = v i α λ 0 ( t ) exp ( X i β 2 T )                                                         ( 2 )

两个式子分别表示复发事件和死亡事件的风险函数。与一般的Cox模型相比,JF模型加入了脆弱项 v i = exp ( ω i ) 表示未观测到的或难以观测的协变量引起的异质性,脆弱项通过联合复发风险函数和死亡风险函数,来解释复发事件间或复发与死亡间的相关性。本研究假定脆弱项 服从独立同分布的伽玛分布,即 v i ~ Γ ( 1 / θ , 1 / θ ) 。若脆弱项的方差θ有统计学意义,说明复发事件间或者复发事件与死亡间存在相关性,此时若 α ≠ 0 ,表示死亡风险与复发风险存在相关性,当 α > 1 时,表示死亡风险与复发风险存在正相关,反之则存在负相关。

通过JF模型估计脆弱项的方差来检验LGG患者中复发事件与死亡事件之间的相关性。为了评估相关因素对LGG患者复发的影响,我们计算了危险比(Hazard Ratio, HR)及其对应的95%置信区间(Confidence Interval, CI)。

2.2.2. 预测模型建立

基于随机生存森林的方法建立复发预后预测模型,并建立Cox模型作为比较。随机生存森林(Random Survival Forest, RSF)是Ishwaran等 [ 19 ] 2008年提出的方法,该方法将随机森林和传统生存分析相结合。本研究将全部数据作为训练集建立预测模型。

2.2.3. 预测模型评价

从区分度(Discrimination)与校准度(Calibration)两个角度对预测模型进行评价。使用Harrell的一致性指数(Concordance index)来评估预测模型的区分度。一致性指数是评估生存分析模型的常用指标,取值范围在0.5~1之间,其值越接近1说明模型的区分度越好。同时,ROC曲线亦可用来评估模型的区分能力,但传统ROC仅适用于二分类变量,因此本研究还采用时间依赖性ROC曲线(time-dependent ROC, tdROC)来评估预测模型在不同时间点(1、3、5年)的效果,并计算相应的曲线下面积(AUC)。使用校准曲线(calibration curves)来评估预测模型的校准能力,并计算相应时间点的Brier分数,校准曲线与对角线越贴近、Brier分数越低,说明模型预测概率与实际情况越相符。

2.2.4. 预测模型验证

模型验证使用bootstrap进行内部验证,以评估模型预测性能是否存在潜在的过度拟合 [ 20 ] ,计算各评价指标并综合比较模型的预测性能,其中重抽样迭代次数设置为1000次,每一次迭代都基于重抽样样本重新拟合模型,并在原样本上评估模型表现。

所有统计分析均使用R软件进行,版本为4.2.1 (http://www.r-project.org/)。数据通过R中的'TCGAbiolinks'包下载。使用'frailtypack'包 [ 14 ] 构建JF模型。RSF模型和Cox模型的建立分别使用'randomForestSRC'包 [ 12 ] 和'survival'包 [ 15 ] 。基于'riskRegression'包进行AUC和Brier分数的bootstrapping计算,基于'pec'包 [ 16 ] 进行C指数的bootstrapping计算。P值 < 0.05认为统计学显著。

3. 结果 3.1. LGG患者的人口统计学和临床特征

基于先前发表的相关研究 [ 8 ] [ 14 ] [ 15 ] [ 16 ] [ 21 ] [ 22 ] 和现有的数据,确定可能影响LGG患者复发的因素。最终考虑以下变量作为可能的复发影响因素进行分析,详见表1 (LGG患者的基线人口统计学和临床特征)。

Baseline demographics and clinical characteristic
变量 N = 457
性别
204 (44.6%)
253 (55.4%)
年龄(岁)
≤40 229 (50.1%)
>40 228 (49.9%)
主要治疗结果
完全缓解 132 (28.9%)
部分缓解 64 (14.0%)
病情稳定 157 (34.4%)
疾病进展 104 (22.8%)
组织学类型
星形细胞瘤 169 (37.0%)
少星形细胞瘤 120 (26.3%)
少突胶质细胞瘤 168 (36.8%)
ICD-O-3组织学编码
9382/3 121 (26.5%)
9400/3 57 (12.5%)
9401/3 112 (24.5%)
9450/3 100 (21.9%)
9451/3 67 (14.7%)
肿瘤组织学分级
G2 224 (49.0%)
G3 233 (51.0%)
术后
198 (43.3%)
259 (56.7%)
放射治疗
177 (38.7%)
280 (61.3%)
癫痫发作史
163 (35.7%)
294 (64.3%)
头痛史
295 (64.6%)
162 (35.4%)
精神状态改变史
349 (76.4%)
108 (23.6%)
运动改变史
357 (78.1%)
100 (21.9%)
首次症状持续时间(天)
>180 117 (25.6%)
0~30 232 (50.8%)
31~90 71 (15.5%)
91~180 37 (8.1%)
IDH1突变测试
307 (67.2%)
150 (32.8%)

表1. 457 例LGG患者的基线人口统计学和临床特征

在本研究纳入的457例LGG患者中,男女性别比例基本均衡,女性204人,约占44.6%,男性253人,约占55.4%;将患者的年龄按中位数分为两组“≤40岁”和“>40岁”;有132名(28.9%)患者的主要治疗结果为完全缓解,64名(14.0%)患者为部分缓解,还有157名(34.4%)的患者为疾病稳定状态,104名(22.8%)的患者的主要治疗结果为疾病进展;组织学类型为星形细胞瘤的患者有169人(37.0%),120人(26.3%)为少星形细胞瘤,少突胶质细胞瘤的有168 (36.8%);ICD-O-3组织学编码为“9382/3”的患者有121人(26.5%),为“9400/3”的有57人(12.5%),“9401/3”的有112人(24.5%),“9450/3”的有100人(21.9%),67个患者(14.7%)的ICD-O-3组织学分类为“9451/3”;在所有患者中,有224人(49.0%)的肿瘤组织学分级为G2,其余233人(51.0%)为G3;有198人(43.4%)未接受过手术治疗,259名患者(56.7%)接受过手术治疗;177人(38.7%)未接受过放射治疗,280人(61.3%)接受过放射治疗;此外,294人(64.3%)存在癫痫发作史,而有163人(35.7%)无癫痫发作史;162人(35.4%)有过头痛史,295人(64.6%)未有过头痛史;患者中有108人(23.6%)出现过精神状态改变,其余349人(76.4%)既往无精神状态改变;有100例患者(21.9%)出现过运动改变,357例(78.1%)没有出现过运动改变;232例患者(50.8%)首次症状持续时间为30天以内,71例患者(15.5%)为31~90天,37例患者(8.1%)首次症状持续时间在91~180天,首次症状持续时间超过180天有117人(25.6%);在所有患者中,有150人(32.8%)接受过IDH1突变测试,307人(67.2%)未接受过IDH1突变测试。

该队列的中位复发生存期为1886天。1年、3年和5年复发概率分别约为89.7%、67.7%和51.3% (图1)。

图1. LGG 患者的总体复发生存曲线

3.2. 复发危险因素分析

从JF模型的拟合结果来看(表2),脆弱项的方差theta统计学显著(p < 0.001),同时alpha也显著(p < 0.001),表明LGG患者复发与死亡之间存在相关关系,且alpha的估计值为3.218 > 1,即存在正相关关系。若将死亡作为复发的非信息删失,即把两个事件看成是独立的,会导致估计有偏,因此需要联合考虑复发事件与死亡事件,进一步分析影响复发的危险因素。

LGG患者复发危险因素分析的结果显示,主要治疗结果、年龄、首次症状持续时间是影响LGG患者复发的显著危险因素(表3)。其中,主要治疗结果为疾病稳定的患者出现复发的风险是主要治疗结果为

Parameter estimation results of JF mode
参数 估计值(标准误) P值
theta 0.912 (0.093) <0.001
alpha 3.218 (0.425) <0.001

表2. JF模型参数估计结果

完全缓解患者的2.91倍(HR (95%CI):2.91 (1.43~5.89),p = 0.003),疾病进展患者的复发风险是完全缓解患者的13倍(HR(95%CI):13 (6.81~24.83),p < 0.001);与年龄 ≤ 40岁的患者相比,年龄在40岁以上的患者出现复发的风险高1.96倍(HR(95%CI):1.96 (1.35~2.86),p < 0.001);患者首次症状持续时间为0~30天出现复发的风险是首次症状持续时间超过180天患者的2.56倍(HR (95%CI): 2.56 (1.51~4.35), p < 0.001),患者首次症状持续时间为31~90天复发的风险是首次症状持续时间超过180天的2.16倍(HR (95%CI): 2.16 (1.19~3.93), p = 0.012),而首次症状持续时间为91~180天的患者出现复发的风险是首次症状持续时间超过180天的2.64倍(HR (95%CI): 2.64 (1.12~6.2), p = 0.026)。

Risk factor for recurrence based on JF mode
变量 HR (95% CI) P值
主要治疗结果
完全缓解 1.0 [Reference]
部分缓解 1.53 (0.62~3.79) 0.359
病情稳定 2.91 (1.43~5.89) <0.001
疾病进展 13 (6.81~24.83) 0.003
术后
1.0 [Reference]
0.73 (0.46~1.14) 0.168
放射治疗
1.0 [Reference]
0.76 (0.47~1.21) 0.243
组织学类型
星形细胞瘤 1.0 [Reference]
少星形细胞瘤 0.04 (0~1.45) 0.078
少突胶质细胞瘤 0.03 (0~1.86) 0.096
性别
1.0 [Reference]
0.87 (0.61~1.24) 0.446
ICD-O-3 组织学编码
9382/3 1.0 [Reference]
9400/3 0.03 (0~1.15) 0.059
9401/3 0.09 (0~4.01) 0.217
9450/3 1.03 (0.16~6.63) 0.976
9451/3 0.9 (0.12~6.92) 0.920
年龄(岁)
≤40 1.0 [Reference]
>40 1.96 (1.35~2.86) <0.001
肿瘤组织学分级
G2 1.0 [Reference]
G3 1 (0.45~2.27) 0.991
癫痫发作史
1.0 [Reference]
1.01 (0.64~1.62) 0.952
头痛史
1.0 [Reference]
1.5 (0.96~2.35) 0.075
精神状态改变史
1.0 [Reference]
0.86 (0.53~1.39) 0.534
运动改变史
1.0 [Reference]
0.96 (0.56~1.64) 0.885
首次症状持续时间(天)
>180 1.0 [Reference]
0~30 2.56 (1.51~4.35) <0.001
31~90 2.16 (1.19~3.93) 0.012
91~180 2.64 (1.12~6.2) 0.026
IDH1突变测试
1.0 [Reference]
1.01 (0.67~1.53) 0.967

表3. 基于JF模型的复发危险因素分析

3.3. 复发预测模型建立

基于JF模型分析结果,考虑将主要治疗结果、年龄、首次症状持续时间纳入预测模型。RSF可以根据VIMP值(VIMP值为有噪声和无噪声的预测误差之间的差异)对变量重要性进行排序,所以同时考虑RSF对模型变量重要性的评估结果。最终纳入以下七个变量进行建模:主要治疗结果、年龄、ICD-O-3组织学编码、首次症状持续时间、是否术后、肿瘤组织学分级以及是否接受过放射治疗。同时建立Cox模型作为比较。

3.4. 模型表现及验证

根据训练集数据计算RSF模型在1、3、5年的C指数分别为0.905、0.829、0.818,通过bootstrap内部验证得到的RSF模型的C指数结果分别为0.813、0.748和0.745。根据训练数据集计算得到的C指数没有远大于通过bootstrap重抽样计算得到的C指数,可以认为模型不存在严重的过拟合情况。基于训练数据得到Cox模型在1、3、5年的C指数分别为0.848、0.743和0.754,Bootstrap内部验证得到的结果分别为0.824、0.724和0.727。从C指数计算结果来看,RSF模型在训练集数据上的表现均优于Cox模;当预测时间点为3年和5年时,RSF模型在bootstrap重抽样数据集上的表现亦优于Cox模型;从不同时间点上看,RSF模型不论是在训练集还是重抽样数据集,均表现为预测时间为1年时的效果最优。C指数的计算结果如下表4所示。

C-index calculated in 1, 3 and 5 year
时间(年) RSF Cox
训练集 Bootstrap内部验证 训练集 Bootstrap内部验证
1 0.905 0.813 0.848 0.824
3 0.829 0.748 0.743 0.724
5 0.818 0.745 0.754 0.727

表4. 预测模型在1、3、5年的C指数

下图2展示了RSF模型和Cox模型在1年、3年和5年的tdROC曲线,并计算了对应时间点的AUC值(表5)。根据训练数据集计算得到RSF模型在1、3、5年的AUC值分别为0.925 (95%CI: 0.894, 0.955)、0.854 (95%CI: 0.806, 0.903)、0.867 (95%CI: 0.804, 0.930),通过bootstrap重抽样计算得到RSF模型在1年、3年和5年的AUC值分别为0.824 (95%CI: 0.710, 0.927)、0.746 (95%CI: 0.649, 0.834)和0.754 (95%CI: 0.629, 0.871)。根据训练数据集计算得到Cox模型在1年、3年和5年的AUC值分别为0.863 (95%CI: 0.791, 0.935)、0.747 (95%CI: 0.676, 0.819)、0.772 (95%CI: 0.692, 0.851),经过bootstrap重抽样计算得到Cox模型在1年、3年和5年的AUC值分别为0.833 (95%CI: 0.723, 0.932)、0.713 (95%CI: 0.605, 0.817)、0.730 (95%CI: 0.601, 0.864)。两个模型预测不同时间点复发情况的效果均表现为:1年 > 5年 > 3年。比较两个模型在不同时间点的AUC值,RSF模型在训练集数据上的表现均优于Cox模型,而在bootstrap重抽样数据集上的表现来看,RSF模型在3年和5年的预测性能优于Cox模型;整体来看,RSF模型区分度较好,且不存在严重的过拟合情况。

图2. RSF模型(左)和Cox模型(右)在1年、3年和5年的时间依赖性ROC曲线,基于训练数据

Time-dependent AUC (95%CI) calculated in 1, 3 and 5 year
时间(年) RSF Cox
训练集 Bootstrap验证 训练集 Bootstrap验证
1 0.925 (0.894, 0.955) 0.824 (0.710, 0.927) 0.863 (0.791, 0.935) 0.833 (0.723, 0.932)
3 0.854 (0.806, 0.903) 0.746 (0.649, 0.834) 0.747 (0.676, 0.819) 0.713 (0.605, 0.817)
5 0.867 (0.804, 0.930) 0.754 (0.629, 0.871) 0.772 (0.692, 0.851) 0.730 (0.601, 0.863)

表5. 预测模型在1、3和5年的时间依赖性AUC (95%CI)

我们同时还绘制了校准曲线(图3)对模型的校准度进行评价,并分别输出了预测模型分别在1年、3年、5年的Brier分数(表6),均展示的是经bootstrap验证的结果。RSF在1年、3年、5年的Brier分数分别为0.074、0.184、0.212,而Cox模型在1年、3年、5年的Brier分数分别为0.077、0.195、0.227。校准曲线越接近对角线,Brier评分越低,表明模型预测概率与真实情况更吻合。综合校准曲线和Brier分数来看,RSF的校准度均优于Cox模型。

图3. RSF模型(左)和Cox模型(右)在1年、3年和5年的校准曲线,基于bootstrap验证

Brier scores calculated in 1, 3 and 5 year
时间(年) RSF Cox
1 0.074 0.077
3 0.184 0.195
5 0.212 0.227

表6. 预测模型在1年、3年和5年的Brier分数

4. 讨论

JF模型可以看成是Cox模型的扩展,它将死亡事件和复发事件联合来看待而不是看成两个独立事件,模型通过一个脆弱项来估计两个事件之间的相关性。已有研究 [ 10 ] [ 11 ] [ 12 ] [ 13 ] 应用JF模型来研究癌症复发,以确定相关疾病患者的危险因素。本研究只考虑LGG患者的复发,因此主要关注死亡事件发生对复发事件的信息删失。通过建立JF模型得到了影响复发的三个显著危险因素:主要治疗结果、年龄、首次症状持续时间。疾病稳定状态通常用于描述既不生长也不缩小的肿瘤 [ 23 ] ,而疾病进展则是指疾病出现进展或恶化。与疾病完全缓解相比,治疗后病情稳定会带来更高的复发风险,这是合理的预期;同样,疾病进展的复发风险大于完全缓解。研究 [ 14 ] [ 15 ] 表明年龄对LGG患者生存预后的潜在影响,将年龄作为评估患者总生存期的预测指标 [ 16 ] ,有学者 [ 17 ] 探讨了脑胶质瘤患者的临床特征与术后短期复发风险之间的关系,将诊断年龄确定为短期脑胶质瘤复发的独立危险因素。此外,也有研究 [ 16 ] 表明,LGG患者的初始症状会影响随后的复发,这与我们的研究结果一致,我们的结果表明,与首次症状持续时间较长的患者相比,首次症状持续时间较短的患者复发风险更高。

从RSF根据VIMP值对变量重要性评估的结果来看,与JF模型的结果具有一致性。综合两个模型的结果,将以下七个变量作为预测因素:主要治疗结果、年龄、ICD-O-3组织学编码、首次症状持续时间、术后、肿瘤组织学分级以及放射治疗,并采用RSF的方法建立LGG患者复发预测模型,同时建立Cox模型作为比较。预测模型的建立与验证均遵循TRIPOD声明 [ 20 ] 。RSF是随机森林方法在生存领域的扩展,具有可以防止过拟合、不受比例风险假定限制的优势,已有不少研究将随机生存森林的方法用于复杂生存数据的变量筛选和预后预测 [ 24 ] [ 25 ] [ 26 ] ,但是在脑胶质瘤复发的相关研究中,方法仍较局限 [ 27 ] 。我们基于RSF建立了低级别脑胶质瘤患者复发预测模型,并对模型进行了bootstrap内部验证,RSF模型的表现整体都优于传统的Cox模型,具有比较好的区分度和校准度,具体表现为:基于训练集数据计算1、3和、5年RSF的C指数值分别为0.905、0.829和0.818,而通过bootstrap内部验证得到C指数的结果分别为0.813、0.748和0.745;基于训练集数据计算第1、3、5年RSF的AUC值分别为0.925 (95%CI: 0.894, 0.955)、0.854 (95%CI: 0.806, 0.903)、0.867 (95%CI: 0.804, 0.930),通过bootstrap计算得到模型在1、3、5年的AUC值分别为0.824 (95% CI: 0.710, 0.927)、0.746 (95% CI: 0.649, 0.834)和0.754 (95% CI: 0.629, 0.871);此外,校准曲线和brier分数也说明了RSF模型具有较好的校准度。

但是本研究仍存在一定局限性:首先,JF模型可以对复发和死亡的相关性进行度量,但是具体相关程度为多大无法得出,有待进一步拓展此模型;此外,由于RSF是基于随机节点分裂来生长决策树,而本次研究中存在多分类变量,所以随机选择分裂点时可能存在偏倚 [ 28 ] ,因此需要进一步的研究来完善和优化模型;最后,本研究的建模和验证都是基于同一数据集,这意味着不能保证完全防止过拟合,未来可以考虑增加外部验证。

5. 结论

我们关注死亡事件发生对复发的信息删失,在考虑复发与死亡相关性的基础上建立联合脆弱模型,分析影响LGG患者复发的显著危险因素。采用RSF模型的方法建立LGG患者复发预测模型,同时建立Cox模型作为比较。结果表明,RSF模型具有较好的区分度和校准度,且在内部验证中表现良好。未来期待更多探索预测脑胶质瘤患者复发的方法和工具,且这些方法能得到在临床上的实践应用。

文章引用

毛丹怡,曾 庆,杨裕隆,陈宇轩,钱金山. 基于随机生存森林的低级别脑胶质瘤复发预测模型Prediction Model of Recurrence of LGG Based on Random Survival Forest[J]. 统计学与应用, 2024, 13(01): 151-163. https://doi.org/10.12677/SA.2024.131016

参考文献 References Ostrom, Q.T., Gittleman, H., Farah, P., Ondracek, A., Chen, Y., Wolinsky, Y., Stroup, N.E., Kruchko, C. and Barnholtz-Sloan, J.S. (2013) CBTRUS Statistical Report: Primary Brain and Central Nervous System Tumors Diagnosed in the United States in 2006-2010. Neuro-Oncology, 15, ii1-ii56.
https://doi.org/10.1093/neuonc/not151
Louis, D.N., Perry, A., Reifen-berger, G., von Deimling, A., Figarella-Branger, D., Cavenee, W.K., Ohgaki, H., Wiestler, O.D., Kleihues, P. and Ellison, D.W. (2016) The 2016 World Health Organization Classification of Tumors of the Central Nervous System: A Summary. Acta Neu-ropathologica, 131, 803-820.
https://doi.org/10.1007/s00401-016-1545-1
Kumar A.A. and Abraham Koshy, A. (2017) Regression of Recurrent High-Grade Glioma with Temozolomide, Dexamethasone, and Levetiracetam: Case Report and Review of the Literature. World Neurosurgery, 108, 990.e11-990.e16.
https://doi.org/10.1016/j.wneu.2017.08.136
Barnholtz-Sloan, J.S., Ostrom, Q.T. and Cote, D. (2018) Epidemiology of Brain Tumors. Neurologic Clinics, 36, 395-419.
https://doi.org/10.1016/j.ncl.2018.04.001
Tan, A.C., Ashley, D.M., López, G.Y., Malinzak, M., Friedman, H.S. and Khasraw, M. (2020) Management of Glioblastoma: State of the Art and Future Directions. CA: A Cancer Journal for Clinicians, 70, 299-312.
https://doi.org/10.3322/caac.21613
Weller, M., Felsberg, J., Hartmann, C., Berger, H., Steinbach, J.P., Schramm, J., Westphal, M., Schackert, G., Simon, M., Tonn, J.C., Heese, O., Krex, D., Nikkhah, G., Pietsch, T., Wiestler, O., Reifenberger, G., von Deimling, A. and Loeffler, M. (2009) Molecular Predictors of Progression-Free and Overall Survival in Patients with Newly Diagnosed Glioblastoma: A Prospective Translational Study of the German Glioma Network. Journal of Clinical On-cology, 27, 5743-5750.
https://doi.org/10.1200/JCO.2009.23.0805
Jiang, H., Zhu, Q., Wang, X., Li, M., Shen, S., Yang, C., Zhao, X., Li, M., Ma, G., Zhao, X., Chen, X., Yang, J. and Lin, S. (2023) Characterization and Clinical Implications of Different Malignant Transformation Patterns in Diffuse Low-Grade Gliomas. Cancer Science, 114, 3708-3718.
https://doi.org/10.1111/cas.15889
Teng, C., Zhu, Y., Li, Y., Dai, L., Pan, Z., Wanggou, S. and Li, X. (2022) Recur-rence- and Malignant Progression-Associated Biomarkers in Low-Grade Gliomas and Their Roles in Immunotherapy. Frontiers in Immunology, 13, Article ID: 899710.
https://doi.org/10.3389/fimmu.2022.899710
Mazroui, Y., Mathou-lin-Pélissier, S., Macgrogan, G., Brouste, V. and Rondeau, V. (2013) Multivariate Frailty Models for Two Types of Recurrent Events with a Dependent Terminal Event: Application to Breast Cancer Data. Biometrical Journal, 55, 866-884.
https://doi.org/10.1002/bimj.201200196
Pasin, O., Dirican, A., Ankarali, H., Disci, R. and Karanlik, H. (2020) As-sessment of Death Risk of Breast Cancer Patients with Joint Frailty Models. Saudi Medical Journal, 41, 491-498.
https://doi.org/10.15537/smj.2020.5.25065
Rahman, F. and Begum, M. (2018) Survival Analysis of Recurrent Events on Prostate Cancer: Facts from Cancer Genome. Journal of Statistical Research, 51, 145-164.
https://doi.org/10.47302/jsr.2017510204
Talebi-Ghane, E., Baghestani, A., Zayeri, F., Rondeau, V. and Akhavan, A. (2021) Joint Frailty Model for Recurrent Events and Death in Presence of Cure Fraction: Application to Breast Cancer Data. Biometrical Journal, 63, 725-744.
https://doi.org/10.1002/bimj.201900113
Charles-Nelson, A., Katsahian, S. and Schramm, C. (2019) How to Analyze and Interpret Recurrent Events Data in the Presence of a Terminal Event: An Application on Readmission after Colorectal Cancer Surgery. Statistics in Medicine, 38, 3476-3502.
https://doi.org/10.1002/sim.8168
Li, G., Wu, F., Zeng, F., Zhai, Y., Feng, Y., Chang, Y., Wang, D., Jiang, T. and Zhang, W. (2021) A Novel DNA Repair-Related Nomogram Predicts Survival in Low-Grade Gliomas. CNS Neuroscience & Therapeutics, 27, 186-195.
https://doi.org/10.1111/cns.13464
Du, P., Chen, H., Lv, K. and Geng, D. (2022) A Survey of Radiomics in Precision Diagnosis and Treatment of Adult Gliomas. Journal of Clinical Medicine, 11, Article 3802.
https://doi.org/10.3390/jcm11133802
Wei, R., Zhao, C., Li, J., Yang, F., Xue, Y. and Wei, X. (2022) Online Calcu-lator to Predict Early Mortality in Patient with Surgically Treated Recurrent Lower-Grade Glioma. BMC Cancer, 22, Article No. 114.
https://doi.org/10.1186/s12885-022-09225-9
Wang, T., Zhu, C., Zheng, S., Liao, Z., Chen, B., Liao, K., Yang, X., Zhou, Z., Bai, Y., Wang, Z., Hou, Y., Qiu, Y. and Huang, R. (2021) A Novel Nomogram for Predicting the Risk of Short-Term Recurrence After Surgery in Glioma Patients. Frontiers in Oncology, 11, Article ID: 740413.
https://doi.org/10.3389/fonc.2021.740413
Rondeau, V., Mathoulin-Pelissier, S., Jacqmin-Gadda, H., Brouste, V. and Soubeyran, P. (2007) Joint Frailty Models for Recurring Events and Death Using Maximum Penalized Likelihood Estimation: Application on Cancer Events. Biostatistics, 8, 708-721.
https://doi.org/10.1093/biostatistics/kxl043
Ishwaran, H., Kogalur, U.B., Blackstone, E.H. and Lauer, M.S. (2008) Random Survival Forests. Annals of Applied Statistics, 2, 841-860.
https://doi.org/10.1214/08-AOAS169
Collins, G.S., Reitsma, J.B., Altman, D.G. and Moons, K.G.M. (2015) Trans-parent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis (TRIPOD): The TRIPOD State-ment. BMJ, 350, g7594.
https://doi.org/10.1136/bmj.g7594
Zhang, M., Wang, X., Chen, X., Zhang, Q. and Hong, J. (2020) Novel Im-mune-Related Gene Signature for Risk Stratification and Prognosis of Survival in Lower-Grade Glioma. Frontiers in Genetics, 11, Article 363.
https://doi.org/10.3389/fgene.2020.00363
Zhu, Q., Liang, Y., Fan, Z., Liu, Y., Zhou, C., Zhang, H., He, L., Li, T., Yang, J., Zhou, Y., Wang, J. and Wang, L. (2022) Development and Validation of a Novel Survival Prediction Model for Newly Diagnosed Lower-Grade Gliomas. Neurosurgical Focus, 52, E13.
https://doi.org/10.3171/2022.1.FOCUS21596
Schwartz, L.H., Litière, S., de Vries, E., Ford, R., Gwyther, S., Man-drekar, S., Shankar, L., Bogaerts, J., Chen, A., Dancey, J., Hayes, W., Hodi, F.S., Hoekstra, O.S., Huang, E.P., Lin, N., Liu, Y., Therasse, P., Wolchok, J.D. and Seymour, L. (2016) RECIST 1.1—Update and Clarification: From the RECIST Committee. European Journal of Cancer, 62, 132-137.
https://doi.org/10.1016/j.ejca.2016.03.081
Lin, J., Yin, M., Liu, L., Gao, J., Yu, C., Liu, X., Xu, C. and Zhu, J. (2022) The Development of a Prediction Model Based on Random Survival Forest for the Postoperative Prognosis of Pancreatic Cancer: A SEER-Based Study. Cancers, 14, Article 4667.
https://doi.org/10.3390/cancers14194667
Zhang, L., Huang, T., Xu, F., Li, S., Zheng, S., Lyu, J. and Yin, H. (2022) Prediction of Prognosis in Elderly Patients with Sepsis Based on Machine Learning (Random Survival Forest). BMC Emergen-cy Medicine, 22, Article No. 26.
https://doi.org/10.1186/s12873-022-00582-z
Roshanaei, G., Safari, M., Faradmal, J., Abbasi, M. and Khazaei, S. (2022) Factors Affecting the Survival of Patients with Colorectal Cancer Using Random Survival Forest. Journal of Gastroin-testinal Cancer, 53, 64-71.
https://doi.org/10.1007/s12029-020-00544-3
Gittleman, H., Sloan, A.E. and Barnholtz-Sloan, J.S. (2020) An Inde-pendently Validated Survival Nomogram for Lower-Grade Glioma. Neuro-Oncology, 22, 665-674.
https://doi.org/10.1093/neuonc/noz191
Hazewinkel, A.-D., Gelderblom, H. and Fiocco, M. (2022) Prediction Models with Survival Data: A Comparison between Machine Learning and the Cox Proportional Hazards Model. Medrxiv, 1-15.
https://doi.org/10.1101/2022.03.29.22273112
Baidu
map