背景:确定髓内神经胶质瘤的分级和分子标记状态对于评估治疗结果和预后很重要。侵入性活检病理通常具有较高的组织损伤风险,尤其是脊髓损伤,目前尚无非侵入性策略来识别髓内胶质瘤的病理类型。因此,本研究旨在开发一种非侵入性机器学习模型,以协助医生识别髓内胶质瘤的分级和分子标志物的突变状态。
方法:共纳入来自两个机构的461名患者,术前获取了他们的矢状位(SAG)和横位位(TRA)T2加权磁共振成像扫描和临床数据。我们采用基于 Transformer 的深度学习模型来自动分割 SAG 和 TRA 阶段的病变并提取其放射组学特征。将不同的特征表示输入到所提出的神经网络中,并与其他主流模型进行比较。
结果:在SAG和TRA阶段,Swin变换器的dice相似性系数分别为0.8697和0.8738。结果表明,提出的基于多模态融合(SAG-TRA-临床)特征的神经网络获得了最佳性能。在外部验证队列中,分级(WHO I-II或WHO III-IV)、α地中海贫血/智力迟钝综合征X连锁(ATRX)状态和肿瘤蛋白P53(P53)状态预测任务的接受者操作特征曲线下的面积分别为0.8431、0.7622和0.7954。
具体结果:
患者选择过程的详细流程图如图1所示。医院 1 的总共 332 名患者(主要队列)被分为训练队列和内部验证队列,医院 2 的 127 名患者被纳入独立的外部验证队列。患者的临床基线特征以及主要和外部验证队列中ATRX和P53突变状态的分布参见表1。在主要队列中,52 名患者 (15.7%) 患有高级别胶质瘤,280 名患者 (84.3%) 患有低级别胶质瘤。外部验证队列包括 20 名(58.8%)高级别胶质瘤患者和 14 名(41.2%)低级别胶质瘤患者。在主要和外部验证队列之间的突变,ATRX数量存在显着差异(79/332,23.8%;43/127,33.9%;p = 0.039) 和P53(72/332, 21.7%; 44/127, 34.6%; p = 0.006)。同时,主要和外部验证队列之间的年龄、性别、发病月份、伴随疾病、吸烟、饮酒或麦考密克评分没有发现显着差异。从神经放射科医生提取的影像特征来看,两家医院的脊髓肿瘤轴比和肿瘤出血比例存在显着差异。
图1
表1. 患者的临床特征以及ATRX和P53突变状态在初级和外部验证队列中的分布情况
Characteristic | Primary cohort (n=332) | External validation cohort (n=127) | p |
Age (years), median (IQR) | 37 (29, 51) | 41 (31.5, 52.5) | 0.274 |
Sex, n (%) | | | 0.265 |
Female | 113 (34%) | 51 (40.2%) | |
Male | 219 (66%) | 76 (59.8%) | |
WHO, n (%) | | | 0.001 |
I | 70 (21.1%) | 8 (6.3%) | |
II | 210 (63.3%) | 98 (77.2%) | |
III | 35 (10.5%) | 11 (8.7%) | |
IV | 17 (5.1%) | 10 (7.9%) | |
Glioma grade, n (%) | | | 0.931 |
High grade (WHO III-IV) | 52 (15.7%) | 21 (16.5%) | |
Low grade (WHO I-II) | 280 (84.3%) | 106 (83.5%) | |
P53, n (%) | | | 0.006 |
0 | 260 (78.3%) | 83 (65.4%) | |
1 | 72 (21.7%) | 44 (34.6%) | |
ATRX, n (%) | | | 0.039 |
0 | 253 (76.2%) | 84 (66.1%) | |
1 | 79 (23.8%) | 43 (33.9%) | |
Time of onset (months), median (IQR) | 24 (5, 48) | 24 (3, 48) | 1.000 |
Accompanying diseases, n (%) | | | 0.890 |
0 | 205 (61.7%) | 80 (63%) | |
1 | 127 (38.3%) | 47 (37%) | |
Smoking, n (%) | | | |
0 | 303 (91.3%) | 113 (89%) | 0.566 |
1 | 29 (8.7%) | 14 (11%) | |
Alcohol, n (%) | | | 0.490 |
0 | 318 (95.8%) | 119 (93.7%) | |
1 | 14 (4.2%) | 8 (6.3%) | |
McCormick, n (%) | | | 0.848 |
1 | 157 (47.3%) | 59 (46.5%) | |
2 | 103 (31%) | 44 (34.6%) | |
3 | 30 (9%) | 10 (7.9%) | |
4 | 42 (12.7%) | 14 (11.0%) | |
Single_tumor, n (%) | | | 0.268 |
0 | 22 (6.6%) | 13 (10.2%) | |
1 | 310 (93.4%) | 114 (89.8%) | |
Axis ratio (tumor/spinal cord), n (%) | | | <0.001 |
<25 | 5 (1.5%) | 0 (0%) | |
25–50 | 5 (1.5%) | 0 (0%) | |
50–75 | 59 (17.8%) | 3 (2.4%) | |
75–100 | 263 (79.2%) | 124 (97.6%) | |
Tumor bleeding, n (%) | | | <0.001 |
0 | 243 (73.2%) | 118 (92.9%) | |
1 | 89 (26.8%) | 9 (7.1%) | |
Tumor cysts, n (%) | | | 0.641 |
0 | 185 (55.7%) | 67 (52.8%) | |
1 | 147 (44.3%) | 60 (47.2%) | |
Spinal cord cavity, n (%) | | | 0.051 |
0 | 215 (64.8%) | 69 (54.3%) | |
1 | 117 (35.2%) | 58 (45.7%) | |
Spinal cord edema, n (%) | | | 0.771 |
0 | 188 (56.6%) | 70 (55.1%) | |
1 | 144 (43.4%) | 57 (44.9%) | |
Spinal cord atrophy, n (%) | | | 0.320 |
0 | 228 (68.7%) | 99 (78.0%) | |
1 | 104 (31.3%) | 28 (22.0%) | |
Spine malformation, n (%) | | | 1.000 |
0 | 289 (87%) | 111 (87.4%) | |
1 | 43 (13%) | 16 (12.6%) | |
本研究的整理流程如图2所示。使用SAG和TRA图像的切片以及初级队列中人工标记的病变来训练Swin变换器模型。经过50,000次迭代后,该模型被证明是完全收敛的,没有过度拟合。因此,此时选择这个模型进行测试。总共从患者中随机抽取20%的样本作为测试集,其余的作为训练集。在SAG阶段测试中,自动分割模型的Acc和DSC分别达到0.9929和0.8697。在TRA阶段测试中,自动分割模型的Acc和DSC分别为0.9978和0.8738。这些结果表明,上述深度学习模型在本研究中对病变的分割是比较满意的。图2c展示了两个阶段的自动分割的可视化情况。
图2
3. 特征提取和选择
对于每位患者,得出 1960 个放射组学特征,ICC 结果显示 1572 个(80.1%)特征是稳定的。ATRX突变状态、P53突变状态和WHO肿瘤分级任务的总共1560、1554和1517个特征分别通过了t检验或Mann-Whitney U检验的审查。在 LASSO 中对每个预测任务采用五重交叉验证来选择有意义的特征。WHO肿瘤分级预测任务中,SAG中选择了24个特征,TRA中选择了6个特征,SAG+TRA中选择了20个特征。在ATRX中突变状态预测任务,SAG中选择了3个特征,TRA中选择了39个特征,SAG+TRA中选择了5个特征。在P53突变状态预测任务中,SAG中选择了21个特征,TRA中选择了24个特征,SAG+TRA中选择了57个特征。
每个预测任务都训练了四个机器学习模型,每个模型都被送入六个特征表示。所有模型在实验中都进行了参数优化,这有利于性能比较。图3显示了所提模型的WHO肿瘤等级预测结果和ROC曲线。在四个模型中,WHO-Mind获得了最好的平均ROC曲线下面积(AUC;0.9263),AUC高于XGBoost(0.8802)、LightGBM(0.9079)和RF(0.8618),表明神经网络结构在该预测任务中的优势。然而,输入放射组学特征与临床基线特征相结合比只输入放射组学特征要好,表现最好的组合是SAG+TRA+临床指标。值得注意的是,我们在执行ATRX和P53突变状态的预测任务时发现了类似的结果,这可能是由于多模态融合所涵盖的特征种类较多。每个模型的ATRX和P53突变的预测结果分别显示在图4和图5。提出的ATRX-Mind和P53-Mind模型的表现优于比较的模型,其中最高的AUCs分别为0.9281和0.9173。
图3
图4
图5
选择表现最好的模型(即WHO-Mind、ATRX-Mind和P53-Mind)进行外部测试。多模态融合特征表示被送入每个模型,即SAG+TRA+临床指标。Swin变换器的自动分割效果显示在图6a中。发现这能以相对准确的方式分割病变区域。模型在每个测试任务中的表现如图6b所示。WHO-Mind达到了最高的AUC(0.8431),而WHO-Mind和ATRX-Mind都获得了最高的Acc(0.8889)。此外,还绘制了三个模型的ROCs,以更详细地显示它们的泛化性能(图6c-e)。
图6
微信扫一扫
关注该公众号