基于1413个候选变量的机器学习方法的良性、癌前和恶性子宫内膜病变的一种新分类

摘要:准确区分良性正常(normal,NL)、癌前(子宫内膜上皮内瘤变,endometrial intraepithelial neoplasia,EIN) 和恶性(内膜癌,endometrial carcinoma,EMCA)子宫内膜是患者获得最优治疗的前提。以往应用多个人工判读的组织学变量,通过建立回归模型以预测克隆性生长和癌的可能性,从而客观的定义了EIN的概念。本研究的初步计算研究结果可用于改进目前使用的基于主观判断的子宫内膜癌前病变的诊断标准。本研究中,我们使用自动特征分割和更新的机器学习算法开发出一种新的分类算法。本研究收集148名患者的子宫内膜组织,并随机分为模型训练集72例和模型验证集76例,2组均包括所有的3类诊断类别。应用图像分析软件对角蛋白染色的子宫内膜全玻片扫描数字图像进行自动分割,分别提取上皮成份、细胞和细胞核的相应变量。在三分类(NL,EIN, EMCA)模型中,采用随机森林分类可将1413个变量剔除至75个。能够正确进行三分类预测的模型错误率为0.04(训练集)和0.058(验证集);正确进行二分类预测(NL组与 EIN +EMCA组)的错误率为0.016(训练集)和О(验证集)。