最新7.5分纯生信,非肿瘤中使用百种机器学习进行诊断模型构建及关键基因筛选,会让审稿人眼前一亮!

文章信息

发表杂志名称:Journal of Translational Medicine

中文标题:利用生物信息学和机器学习鉴定炎症性肠病的关键基因作为诊断生物标志物

英文标题:Identification of key genes as diagnostic biomarkers for IBD using bioinformatics and machine learning

影响因子:7.5

发表日期:2025 年 07 月 03 日

研究概述

本研究旨在识别炎症性肠病(IBD)的潜在生物标志物,分析其与免疫细胞浸润的相关性,并确定与 IBD 存在因果关系的基因。作者从 GEO 数据库获取 IBD 的 RNA-seq 数据集,将其分为发现队列(GSE75214)、验证队列(GSE36807)和独立测试队列(GSE179285、GSE47908)。通过对发现队列进行比较表达谱分析,检测到 IBD 相关的差异表达基因(DEGs)。随后利用蛋白质 - 蛋白质相互作用网络分析对核心候选基因进行优先排序,并通过机器学习方法(随机森林 / 支持向量机)进一步优化。通过 CIBERSORTx 反卷积算法进行免疫细胞丰度定量以及与 IBD 相关转录本的统计相关性分析。此外,将来自 GTExv8.ALL.Whole_Blood 的血液表达定量性状位点(eQTL)数据与来自 FinnGen 联盟的 IBD 全基因组关联统计数据相结合,采用贝叶斯共定位、HEIDI 异质性测试和总结孟德尔随机化(SMR)进行因果推断验证。结果表明,IRF1、GBP5 和 PARP9 这三个基因显示出显著的 IBD 促进作用,IBD 的特征性生物标志物与免疫细胞浸润相关,基于 eQTL 数据的 SMR 分析显示 IRF1 与 IBD 风险显著相关,且 IRF1 通过了基因表达的 HEIDI 测试(>0.05),证明其具有促进 IBD 发展的能力。

图 2:DEG 分析识别 IBD 相关差异表达基因

作者对 GSE75214 训练队列(133 例 IBD 患者和 22 例非 IBD 对照)进行 DEG 分析,以 log₂FC>0.585 且 FDR<0.05 为标准,共鉴定出 1816 个与 IBD 相关的差异表达基因。通过火山图(图 2A)和聚类热图(图 2B)展示了这些 DEGs 的分布和表达模式,其中部分基因在 IBD 组中显著上调或下调。这表明 IBD 患者与正常对照组之间存在明显的基因表达差异,这些差异表达基因可能在 IBD 的发生发展中起重要作用。


图 3:WGCNA 识别与 IBD 密切相关的关键模块

作者运用 WGCNA 对 DEGs 进行分析,发现 MElightyellow、MEblack 和 MEgrey60 模块与 IBD 呈显著正相关(R>0.5,p<0.05)。进一步的模块内分析显示,MElightyellow 模块中模块成员(MM)与基因显著性(GS)呈显著正相关(R=0.7,p<0.05),因此将该模块的 1094 个基因作为 IBD 相关基因进行后续分析。这表明 WGCNA 能够有效识别出与 IBD 病理过程密切相关的基因模块,为后续筛选关键基因提供了重要基础。

图 4:WGCNA 与 DEG 交集基因的功能和通路富集分析

作者对 WGCNA 的 MElightyellow 模块和 DEG 的显著正基因模块的交集基因进行分析,共得到 77 个交集基因。GO 富集分析显示,这些基因与生物膜高度相关,如质膜外侧、溶酶体膜、裂解液泡膜和液泡膜(图 4B)。KEGG 富集分析表明,这些基因主要与甲型流感和 EB 病毒感染相关,同时涉及 Nod 样受体信号通路和趋化因子信号通路(图 4C)。这说明这些交集基因可能通过参与生物膜相关过程和特定的感染及炎症信号通路来影响 IBD 的发生发展。


图 5:基于 PPI 网络分析和机器学习筛选 IBD 特征基因

作者利用 cytoHubba 中的 Degree 算法构建 PPI 网络,识别出 15 个最重要的关键基因。通过机器学习整合这 15 个基因的表达谱,构建并应用 113 个预测分类模型进行交叉验证,发现 RF+NaiveBayes 集成算法在训练和测试组中均取得最高平均 AUC 值 0.855,从而筛选出 6 个特征基因:STAT1、PARP9、IRF1、GBP5、OAS2 和 TRIM22(图 5A、B)。这表明通过 PPI 网络分析和机器学习方法能够有效筛选出具有诊断价值的 IBD 特征基因。


图 6:IRF1、GBP5 和 PARP9 作为 IBD 诊断生物标志物的评估

作者对 6 个特征基因进行 ROC 曲线分析,发现 IRF1、GBP5 和 PARP9 在训练队列中的 AUC 值均大于 0.95(图 6A),表明它们对区分 IBD 和对照组具有高敏感性和特异性,被确定为 IBD 的核心基因和潜在诊断生物标志物。基于这三个核心基因构建的模型在训练队列(AUC=0.994)和测试队列(AUC 分别为 0.843、0.728)中均表现出显著改善的诊断性能,且在外部验证队列中这三个基因在 IBD 中显著上调(p<0.001)(图 6B)。这证实了 IRF1、GBP5 和 PARP9 作为 IBD 诊断生物标志物的有效性和可靠性。


图 7:转录因子与特征基因的相互作用及调控网络

作者基于 TRRUST v2 数据库,招募了 6 个靶向特征基因的转录因子(TFs),其中 4 个 TFs(CIITA、STAT3、RELA、STAT2)在 IBD 中表达增加,被认为是 IBD 进展的关键 TFs,且均与 IRF1 和 STAT1 相关。热图(图 7A)显示了 IBD 中 2 个特征基因和 4 个关键 TFs 的相关性模式,其中 STAT2 与 IRF1 和 STAT1 显著相关。调控网络(图 7B)显示,涉及 IRF1 和 STAT1 相关 TFs 的前三大富集功能是细胞对干扰素 -γ 的反应、对干扰素 -γ 的反应和对 I 型干扰素的反应。这揭示了特征基因与转录因子之间的调控关系,以及它们在干扰素相关免疫反应中的重要作用。


图 8:IBD 免疫细胞浸润与核心基因的相关性分析

作者通过 CIBERSORT 算法分析发现,在 IBD 训练和验证队列中,M1 巨噬细胞浸润显著增加,且与核心基因呈正相关;在训练队列中,浆细胞、CD8 T 细胞和活化 NK 细胞浸润显著下调,与核心基因呈负相关;在验证队列中,M2 巨噬细胞、浆细胞和静息肥大细胞浸润显著下调,与核心基因呈负相关(图 8A、B、C、D、E、F)。这表明 M1 巨噬细胞和浆细胞在核心基因调控的免疫相关通路中起关键作用,揭示了 IBD 免疫微环境与核心基因的密切联系。


图 9:基于 eQTL 和 GWAS 数据的 SMR 分析

作者进行 SMR 分析,发现 IRF1 与 IBD 风险呈正相关(P<0.05)(图 9B)。曼哈顿图(图 9A)显示 133 个基因与 IBD 风险相关,其中 IRF1 是 IBD 的核心基因。这表明 IRF1 的遗传变异与 IBD 风险之间存在因果关系,IRF1 可能是 IBD 的一个重要致病基因和潜在治疗靶点。


本研究通过整合生物信息学、机器学习和孟德尔随机化等多维度方法,系统地验证了 IRF1、GBP5 和 PARP9 在 IBD 中的重要性。作者从 GEO 数据库获取 IBD 相关的 RNA-seq 数据集,通过 DEG 分析、WGCNA、PPI 网络分析和机器学习等方法筛选出特征基因,进一步通过免疫细胞浸润分析、转录因子调控网络分析以及基于 eQTL 和 GWAS 数据的 SMR 分析,证实了 IRF1、GBP5 和 PARP9 与 IBD 的发生发展密切相关,其中 IRF1 与 IBD 风险存在显著的正因果关系。这些发现为 IBD 的早期诊断和靶向治疗提供了新的生物标志物和潜在治疗靶点,但研究也存在样本量有限、人群单一等局限性,未来需要更大规模、更多样化的研究来进一步验证和深入探索其机制

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容