子宫内膜异位症潜在诊断标志物相关性研究

来源:中国实用妇科与产科杂志 2026.03.26
我要投稿

作者:刘玉,张文竹,林庚,中国医科大学附属盛京医院第三妇科病房,中国医科大学继续教育学院,中国医科大学医学基础实验教学中心


子宫内膜异位症(endometriosis,EMs)是一种以异位子宫内膜细胞种植、慢性炎症反应及纤维化形成为特征的难治性妇科疾病,主要临床表现为进行性痛经、慢性盆腔痛、不孕及盆腔包块[1]。流行病学数据显示,该病在育龄期女性发病率达5%~10%,全球约1.76亿女性受累,年医疗负担超200亿美元[2-3]。目前,临床诊断依赖腹腔镜探查联合病理活检这一“金标准”[2],但侵入性操作伴随并发症风险,且难以满足早期筛查需求。血清糖类抗原125(CA125)检测虽应用广泛,但其灵敏度和特异度不足,且易受到其他妇科疾病干扰[4]。因此,开发高特异度的无创诊断标志物是当前EMs研究的关键。


近年来,随着分子生物学技术的发展,EMs发病机制研究取得重要突破,免疫微环境失衡、代谢重编程、表观遗传调控异常及干细胞异常分化等新机制逐渐被揭示[5-7]。促炎因子如白细胞介素、肿瘤坏死因子等激活炎症小体,一方面驱动免疫细胞如巨噬细胞极化,以及自然杀伤细胞、T细胞和中性粒细胞等异常浸润,形成“促炎-免疫逃逸”的恶性循环,参与EMs慢性炎症的发生;另一方面,全身炎症上调会导致氧化应激,上调NF-κβ信号通路,激活ROS介导的蛋白激酶ERK1/2,与血管内皮生长因子(VEGF)、基质金属蛋白酶(MMP-9)等促血管生成因子形成级联放大效应,共同驱动EMs疾病的进展[8-11]。基因组学研究发现,EMs患者存在WNT/β-catenin、PI3K/AKT/mTOR等关键信号通路的持续性激活,同时伴随HOXA10、GATA6等转录因子异常表达从而驱动细胞增殖[12-14]。铜死亡(cuproptosis)作为新型程序性细胞死亡方式,其调控异常可能通过线粒体代谢重编程促进异位内膜细胞代谢重塑,增强细胞存活能力[15]。


本研究通过整合转录组数据、加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)和机器学习算法,筛选EMs核心诊断基因,采用单样本基因集富集分析(single-sample gene set enrichment analysis, ssGSEA)解析核心诊断基因功能,并结合临床样本验证其表达特征及与免疫微环境的关联,旨在为EMs的早期诊断和个体化治疗提供新依据。


1  资料与方法


1.1   研究对象  选取2025年3月至2025年5月在中国医科大学附属盛京医院妇科就诊的EMs患者30例,诊断严格遵循第10版《妇产科学》标准。同期选取年龄匹配的非EMs对照者20例,纳入标准:月经周期规律[月经周期(28±7)d)]且排卵正常;基础内分泌检测无异常;经超声及妇科检查排除子宫和卵巢器质性疾病。所有受试者近3个月无激素类药物服用史,无降糖药、脂代谢调节剂如胰岛素增敏剂、降脂类等药物治疗史。本研究获得中国医科大学附属盛京医院伦理委员会批准(伦理批准号:2024PS1856K),所有研究对象均签署书面知情同意书。


1.2  数据预处理与差异基因分析  从基因表达汇编(gene expression omnibus,GEO)数据库(https://www.ncbi.nlm.nih.gov/gds/)获取GSE7305(10例健康对照,10例EMs)和GSE51981(34例健康对照,49例EMs)转录组数据。使用R语言(版本4.5.0)的“sva”包合并数据集,通过ComBat算法校正批次效应,经主成分分析(principal component analysis,PCA)验证批次效应消除效果。采用“limma”包筛选差异表达基因(differentially expressed genes,DEGs),阈值设定为|log2FC|≥1 且调整P值<0.05。利用“clusterProfiler”包进行基因本体(Gene Ontology,GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,以调整P值<0.05为筛选条件,可视化富集分数前10个的显著性条目。


1.3  加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)  使用“WGCNA”包剔除低于中位数及标准差后50%的基因,保留前5000个高变异基因构建共表达网络。基于无标度网络特性(R2>0.8)确定软阈值 β=3,通过拓扑重叠矩阵计算基因间相关性,采用动态剪切树算法进行层次聚类,设置最小模块基因数为50,合并相关系数高于0.75的模块。计算模块特征基因(module eigengene,ME)与EMs表型(gene significance,GS)的Pearson相关性,筛选相关性最强的关键模块进行后续分析。


1.4  机器学习诊断模型构建与沙普利加性解释(SHapley Additive exPlanations,SHAP)分析将健康人群和EMs的表达谱数据按3∶7划分为训练集和测试集,经Z-score标准化处理基因表达矩阵,并引入高斯噪声(μ=1.5,σ=4)增强模型泛化能力。采用113种机器学习算法,包括随机森林(RF)、Lasso回归(Lasso)、偏最小二乘回归和广义回归在内的算法线性模型(plsRglm)、支持向量机(SVM)、Ridge回归(Ridge)、弹性网络(Enet)、极限梯度增强(XGBoost)、广义线性模型增强(glmBoost)、广义Boosted回归建模(GBM)、朴素贝叶斯(NaiveBayes)、线性判别分析(LDA)、阶跃广义线性模型(Stepglm)等构建模型。通过自助法(B=100)计算曲线下面积(area under the curve,AUC)对模型进行内部验证,绘制校准曲线和临床决策曲线(decision curve analysis,DCA),以净获益率筛选最优模型。通过1000次特征置换计算基因的SHAP值,量化其对疾病预测的边际贡献,以平均绝对SHAP值确定基因权重,采用“rms”包将基因表达量转化为风险评分,绘制列线图。


1.5  单样本基因集富集分析(single sample gene set enrichment analysis,ssGSEA)  以目标基因表达量中位数为阈值划分样本为高、低表达组,采用“limma”包进行组间差异分析,获取所有基因的log₂FC值。基于log₂FC排序的所有基因列表,通过“clusterProfiler”执行GSEA富集,过滤基因数<10或基因数>500的通路,筛选并可视化富集分数最高的5条激活通路和最低的5条抑制通路。


1.6  酶联免疫吸附试验(enzyme-linked immunosorbent assay,ELISA)  采集研究对象空腹静脉血,5000g离心10min收集上清。根据商品化C10orf54试剂盒说明书(CSB-EL002961HU,华美生物,中国),对EMs及健康对照组血清进行检测,酶标仪450nm波长测量各孔吸光度,根据说明书绘制标准曲线的四元回归方程,并计算相应血清样本蛋白浓度。


1.7  定量聚合酶链式反应(qPCR)  采集研究对象空腹静脉血4℃静置24 h,5000 g离心10 min收集上清。使用TRIzol试剂(9109,Takara,日本)从血清中提取总RNA。使用NanoDrop One分光光度计(美国赛默飞世尔科技公司)评估RNA浓度和纯度。根据制造商的说明,使用PrimeScript RT试剂盒(CN830A,Takara,日本)合成单链cDNA。使用SYBR Green Master Mix试剂盒(RR092A,Takara,日本)在Roche LightCycler 4800系统上进行qPCR。使用2-ΔΔCt法计算相对基因表达,甘油醛-3-磷酸脱氢酶(glyceraldehyde-3-phosphate dehydrogenase,GAPDH)作为内参。基因特异性引物序列如下:C10orf54(Forward:5'- TAGTCCAGCCTGGGCATTTG-3',Reverse:5'- AGCATTGTGGTGACCAGAGG-3'),GAPDH(Forward:5'- GAAATCCCATCACCATCTTCCAGG-3',Reverse:5'- GAGCCCCAGCCTTCTCCATG -3')。


1.8  免疫印迹(Western blot )  采集研究对象空腹静脉血,5000 g离心10min收集上清。BCA蛋白法(T9300A,Takara,日本)定量蛋白浓度。每个样品20μg蛋白经10% SDS-PAGE凝胶分离,电转至PVDF膜(IPVH00010,Millipore,美国)。5%脱脂奶粉(TBST配置)室温封闭1 h,兔抗VISTA一抗(1∶1000,F2380,Selleck,中国)和兔抗GAPDH(1∶10000,60004-1-lg,proteintech,中国)在4°C孵育过夜,HRP偶联山羊抗兔二抗(1∶10000,31460,Invitrogen,美国)室温下孵育1 h。使用增强的化学发光底物(180-5001,上海天能生命科学有限公司)显色,Image J分析条带密度,以GAPDH作为内参。


1.9  免疫细胞浸润分析  使用CIBERSORT算法估算22种免疫细胞在健康人群和EMs的相对丰度,通过Pearson相关性分析比较组间差异及免疫细胞的协同关系。


1.10  统计学处理  实验数据以均数±标准差表示,采用Shapiro-Wilk检验和Levene检验验证正态分布、方差齐性,组间比较采用独立样本t检验。所有统计分析均使用 GraphPad Prism 9.4.1和R 4.5.0完成,P<0.05表示差异具有统计学意义。


2  结果


2.1  DEGs功能富集分析与EMs临床关键基因模块鉴定     与健康对照组相比,EMs疾病组共鉴定出711个DEGs(|log₂FC|≥1,调整 P值<0.05),其中上调308个,下调403个(图1a)。GO分析显示,上调DEGs富集于免疫应答、防御反应等生物学过程(图1b),提示EMs中先天性免疫激活;下调DEGs富集于细胞周期调控、有丝分裂通路(图1c)。KEGG通路分析表明,上调DEGs主要参与补体与凝血级联通路、胆固醇代谢(图1d),下调DEG集中于细胞周期、DNA复制等细胞分裂相关通路(图1e)。基于软阈值β=13,构建了符合无尺度特性(R²>0.8)的共表达网络。基于拓扑重叠矩阵和动态剪切树算法进行层次聚类,最终获得8个共表达模块(图1f)。其中,greenyellow模块与EMs临床表型相关性最强(r=0.79,P<0.001,图1g),其它模块如pink(r=0.49,P= 0.001)和brown(r=0.48,P= 0.002)与对照组相关性较高,提示其可能参与正常子宫内膜功能维持。通过维恩图将DEGs和greenyellow模块基因取交集,获得58个候选基因(图1h)。


2.2  机器学习算法构建EMs诊断模型与SHAP可解释性分析  将58个候选基因按照|log2FC|排序后取前10个基因作为目标基因集。如图2a所示,113种机器学习模型中,随机森林(random forest,RF)模型表现最优(C指数=0.991),其在训练集中灵敏度高(AUC=0.998,95% CI 0.992~1.000,图2b),其次为GBM模型(C指数=0.991)、glmBoost+GBM模型(C指数=0.988)和RF+GBM模型(C指数=0.988)。通过RF模型筛选出4个核心基因:C10orf54、CALCOCO1、KIF21A和ADAT1,其中与健康组相比,C10orf54(P<0.001)、CALCOCO1(P<0.001)在EMs组中显著上调,ADAT1(P< 0.001)和KIF21A(P<0.001)在EMs组显著下调(图2c)。


SHAP分析表明,C10orf54的平均绝对SHAP值最高(Importance=0.14),提示其对EMs疾病预测贡献度最高,其次为CALCOCO1、KIF21A和ADAT1(图2d)。列线图模型显示C10orf54在风险评分中权重最高,C10orf54的表达量越高,EMs患病风险越高,相对应的是ADAT1表达量越低,EMs患病风险约高(图2e)。


2.3  免疫细胞浸润与ssGSEA解析C10orf54基因功能  采用CIBERSORT算法估算22种免疫细胞在健康对照组和EMs疾病组的相对表达丰度。与健康人群相比,EMs患者促炎细胞如记忆B细胞、CD8+T细胞、活化NK细胞和活化肥大细胞比例显著升高,而抗炎细胞如幼稚B细胞、静息CD4+记忆T细胞、静息肥大细胞比例下调(图3a),提示免疫细胞协同作用,促进免疫逃逸和异位病灶的免疫微环境形成,参与EMs的病理进展。进一步对EMs疾病中核心基因和免疫细胞进行相关性分析,结果表明C10orf54与活化免疫细胞呈成相关,与静息免疫细胞呈负相关(图3b)。ssGSEA基因功能分析显示,C10orf54参与正向调控铜离子的解毒作用、亮氨酸转运以及铜离子的应力响应等通路,并负向调控细胞有丝分裂(图3c)。


2.4  临床样本验证C10orf54基因及蛋白水平表达  为了进一步验证C10orf54在EMs疾病诊断中的作用,我们使用qPCR对C10orf54在健康人群及EMs疾病人群中的mRNA水平进行了检测,结果表明,EMs疾病组中C10orf54的mRNA水平较健康人群显著上调(P=0.0409,图4a)。Western blot验证显示,EMs患者血清中C10orf54编码蛋白质VISTA表达量较对照组显著升高(P<0.0001,图4b~c),进一步验证了C10orf54及其编码蛋白作为EMs诊断标志物的可靠性。


3  讨论


本研究基于整合的EMs及健康人群的转录组数据,联合WGCNA、113种机器学习,以及SHAP分析构建了高效能的EMs诊断模型,首次鉴定出C10orf54、CALCOCO1、ADAT1和KIF21A作为EMs核心诊断基因,其中C10orf54诊断贡献度通过机器学习和SHAP分析证实为最高,列线图模型进一步显示其在风险评分中权重最高。该结果进一步通过ELISA在EMs和健康人群的血清中得到验证,其编码蛋白VISTA在EMs患者血清中显著高表达,这一发现提示C10orf54有潜力成为EMs无创诊断的标志物。


免疫细胞浸润分析揭示了EMs患者存在典型的“促炎-抗炎失衡”:记忆B细胞、活化CD8⁺ T细胞、活化肥大细胞比例显著升高,而幼稚B细胞、静息肥大细胞等细胞减少,这与EMs患者中促炎细胞浸润增加的病理特征一致[16]。此外,EMs患者还存在M0、M1巨噬细胞比例较健康人群显著下调,M2轻微上调但不显著,这体现了巨噬细胞极化失衡与数量不足的叠加,通过“源头储备缺陷-清除调控失效-存活机制强化”的连锁反应,进一步推动EMs免疫微环境的失衡以及病灶进展及慢性化。C10orf54和CALCOCO1与活化免疫细胞的正相关性提示二者可能通过招募或激活促炎细胞,共同促进异位病灶的免疫逃逸,与上调DEGs富集的补体级联、免疫应答通路共同构成炎症放大回路,而铜死亡异常激活可能通过代谢重编程增强异位内膜细胞的存活优势。


C10orf54在EMs患者血清中显著上调,其功能与铜离子应激响应及铜死亡通路密切相关。铜死亡是一种新型程序性细胞死亡方式,其异常激活可能导致异位内膜细胞的代谢重编程和存活优势,这与EMs病灶的侵袭性生长特征高度吻合[17]。C10orf54通过负向调控细胞有丝分裂,可能引发异位内膜细胞的代偿性增殖,形成“死亡-增殖”恶性循环;另一方面C10orf54可能通过调控铜离子转运蛋白(如ATP7B)诱导铜死亡,异常积累的铜离子可损伤线粒体功能,导致巨噬细胞向M1型极化,释放促炎因子[18-19]。


作为炎症相关蛋白,CALCOCO1则通过激活炎症反应通路(如TLR7信号、IL-4调控通路)及抑制血小板源性生长因子受体信号,加剧局部免疫炎症微环境。CALCOCO1通过激活TLR-7通路,促进树突状细胞成熟及细胞因子(如IL-6、TNF-α)分泌,进而招募CD8⁺ T细胞至异位病灶[20],这与EMs患者中TLR7信号过度活化的文献报道一致[21]。CALCOCO1与活化 CD8+ T细胞的正相关性进一步证实,该基因通过构建“炎症-免疫逃逸”微环境推动疾病进展。ADAT1和KIF21A与静息免疫细胞(如幼稚B细胞、静息肥大细胞)呈正相关,其下调可能削弱免疫抑制功能。研究表明KIF21A作为驱动蛋白家族成员,参与细胞有丝分裂调控[22],其低表达可能通过阻滞Treg细胞增殖,间接促进Th1/Th17细胞优势极化。


上调DEGs富集于免疫应答、补体级联反应等,与既往报道的EMs炎症驱动机制一致[23]。下调DEGs涉及细胞周期调控,提示异位内膜细胞增殖失控可能与细胞分裂相关基因抑制有关。greenyellow模块内包含HOXA10、GATA6已知EMs相关基因,其与表型的强相关性既往研究也提出HOXA10通过激活Cyclin D1促进细胞周期的机制[24],验证了模块筛选的可靠性。值得注意的是,本研究通过机器学习从模块中进一步锚定核心基因,弥补了传统WGCNA仅能识别模块而无法精准定位标志物的不足。相较于传统单变量分析,RF模型通过整合多基因表达模式实现高精准预测,且列线图模型进一步将预测模型中的基因表达转化为可视化风险评分,显著提升了模型的临床可操作性,这是对现有单一标志物诊断模式的重要突破。


此外,本研究构建的机器学习模型通过SHAP值分析揭示了各特征变量的贡献度,为临床决策提供了可解释性依据,弥补了机器学习具有“黑盒模型”的不足,其中C10orf54的权重最高,CALCOCO1次之,提示临床可优先检测这2个核心基因以简化流程。未来可结合超声影像(如卵巢子宫内膜异位囊肿特征)构建“分子-影像”联合模型,进一步提升诊断效能。核心基因与免疫细胞相关性分析提示,靶向C10orf54/CALCOCO1-免疫细胞轴可能成为干预EMs免疫微环境的新策略,如开发抑CALCOCO1-TLR7通路(如TLR7拮抗剂)的小分子药物,或通过调节铜代谢(如铜螯合剂)可能同时实现抑制异位病灶和重塑免疫微环境的双重效果,为EMs的免疫治疗提供了新方向。


尽管本研究通过ELISA验证了C10orf54编码蛋白VISTA的血清表达,但仍存在以下局限性:(1)样本量较小(病例组30例,对照组20例),仍需扩大样本进一步验证。(2)仅检测了血清标志物,未涉及异位病灶组织的空间表达数据(如免疫组化定位)及配对正常内膜组织的对比。(3)核心基因调控免疫微环境的具体分子机制(如C10orf54如何调控铜死亡通路影响免疫细胞)尚未完全阐明。后续研究可结合单细胞测序技术,解析核心基因在不同细胞亚群中的表达模式,并通过动物模型验证其在EMs发生发展中的功能,为靶向治疗提供更直接的实验证据。


利益冲突  所有作者均声明不存在利益冲突


作者贡献声明  刘玉:收集数据、撰写文章;张文竹,李春晓,叶轩恺,刘家旭:分子生物学实验、数据分析和做图;林庚:提出选题、文章终稿审定


参考文献略


来源:刘玉,张文竹,林庚.子宫内膜异位症潜在诊断标志物相关性研究[J].中国实用妇科与产科杂志,2026,42(2):231-237.