基于1413个候选变量的机器学习方法的良性、癌前和恶性子宫内膜病变的一种新分类

摘要:准确区分良性正常(normal,NL)、癌前(子宫内膜上皮内瘤变,endometrial intraepithelial neoplasia,EIN) 和恶性(内膜癌,endometrial carcinoma,EMCA)子宫内膜是患者获得最优治疗的前提。以往应用多个人工判读的组织学变量,通过建立回归模型以预测克隆性生长和癌的可能性,从而客观的定义了EIN的概念。本研究的初步计算研究结果可用于改进目前使用的基于主观判断的子宫内膜癌前病变的诊断标准。本研究中,我们使用自动特征分割和更新的机器学习算法开发出一种新的分类算法。本研究收集148名患者的子宫内膜组织,并随机分为模型训练集72例和模型验证集76例,2组均包括所有的3类诊断类别。应用图像分析软件对角蛋白染色的子宫内膜全玻片扫描数字图像进行自动分割,分别提取上皮成份、细胞和细胞核的相应变量。在三分类(NL,EIN, EMCA)模型中,采用随机森林分类可将1413个变量剔除至75个。能够正确进行三分类预测的模型错误率为0.04(训练集)和0.058(验证集);正确进行二分类预测(NL组与 EIN +EMCA组)的错误率为0.016(训练集)和О(验证集)。此模型的最重要的4个变量与以往在手工分割机器学习研究中采用的变量一致,包括间质和上皮的面积百分比、标准化的上皮表面长度。较为次要的预测因子包括腺体和腺腔长短径的长度和比值,以及单个细胞的测量数据。自动图像分析和随机森林分类算法可以对正常、癌前及恶性子宫内膜组织进行分类。具有最高预测能力的变量与在基于手工分割的早期模型中独立发现的变量相互重叠。

陶祥 翻译   杨开选 审校

发表评论

电子邮件地址不会被公开。 必填项已用*标注