导读
E2EATP 模型通过应用蛋白语言模型,提升了 ATP 结合位点预测的速度与准确性。
- 🧬 蛋白-ATP 结合位点识别的重要性
- 💻 现有计算方法的不足:受限于特征表示的质量,这些方法的预测性能尚有提升空间。
- 🤖 E2EATP 模型的创新之处:运用预训练的深度学习蛋白语言模型(ESM2)来提取蛋白质序列中的关键信息。
- 🔬 模型的优势:与现有技术相比,E2EATP 展现了更高的 Matthew’s 相关系数和 AUC 值,同时具备更快的处理速度。
对蛋白-ATP 结合位点的准确识别对理解蛋白质功能和药物开发至关重要。尽管已有多种计算方法用于预测 ATP 结合位点,但它们由于特征表示的局限性,预测性能仍有提升空间。
在这项研究中,研究者提出了一种新型的端到端深度学习模型,名为 E2EATP,旨在从蛋白质序列中提取更多关键信息,从而改善 ATP 结合位点的预测效果。研究者采用了预训练的深度学习蛋白语言模型(ESM2)来自动识别与蛋白质功能相关的关键序列特征。基于 ESM2 设计一种残差卷积神经网络,用以训练蛋白-ATP 结合位点预测模型。
此外,他们还使用了加权焦点损失函数来减少不平衡数据在模型训练阶段的负面影响。在两个独立测试数据集上的实验结果表明,E2EATP 在 Matthew’s 相关系数和 AUC 值方面均优于大多数现有的先进预测方法,且处理速度(大约每个蛋白 0.05 秒)远快于其他方法。
详细的数据分析显示,E2EATP 模型的主要优势在于其能够通过预训练的蛋白语言模型,从蛋白质序列中提取更多关键信息。
基准数据集:PATP 系列
PATP-429 概述
研究从基准数据集 PATP-429 开始,该数据集源自 2144 个 ATP 结合蛋白链的大规模收集。通过 CD-hit 修剪数据集以避免冗余,最终得到 429 个独特的蛋白序列。
训练和测试子集划分
PATP-429 被策略性地划分为两个子集:
- PATP-388(训练子集): 包含 388 个蛋白序列,涵盖 ATP 和非 ATP 结合位点。
- PATP-TEST(独立测试子集): 包含 41 个蛋白序列,用于严格的模型评估。
通过创建包含 1930 个蛋白序列的更大集合 PATP-1930,进一步扩展了训练数据。扩展对于开发能够处理多样化数据输入的强大模型很重要。
探索序列同一性阈值
这项研究的一个值得注意的方面是探索不同序列同一性阈值。构建了具有 30%序列同一性阈值的 PATP-NW30。这种变化用于评估在不同序列相似度下的预测性能。
特征表示:ESM2 和 PSSM
ESM2 的作用
使用 Meta 研究所开发的预训练蛋白质语言模型 ESM2,可以提取蛋白序列的高潜在区分特征。这种方法非常擅长捕捉蛋白质语言模式的细微差别,可以提升预测准确性。
PSSM 在特征嵌入中的应用
尽管位置特异性评分矩阵(PSSM)是一种有价值的特征来源,但从广泛的蛋白质序列数据库中生成 PSSM 可能耗时较长。在这方面,ESM2 的效率是一个显著的进步。
深度残差神经网络架构(DRNN)
DRNN 架构的设计是这项研究的核心元素。DRNN 有效处理了 ESM2 生成的特征矩阵,提升了 ATP 结合位点的预测。这种架构巧妙地管理 GPU 内存限制,并采用多层架构,包括卷积层和批量标准化,以优化预测模型。
应对类别不平衡:加权焦点损失函数
蛋白质-ATP 结合残基预测中的一个主要挑战是正负样本间的类别不平衡。采用加权焦点损失函数有助于缓解这一问题,增强模型从困
难和误分类样本中学习的能力。
实现和评估:E2EATP
训练和优化
最终输出模型 E2EATP 在使用 Adam 优化器和加权焦点损失函数的情况下,经过 3000 个训练周期。超参数被精心设置以优化性能,并在高性能计算集群上进行实施。
评估指标
为了评估模型的效果,采用了一整套综合评估指标,包括灵敏度、特异性、准确性、精确度、F1 分数和 Matthew’s 相关系数。这些指标提供了模型性能的多面视角,确保了其可靠性和有效性。
主要结果
ESM2 特征在预测蛋白质与 ATP 结合残基方面,相较于位置特异性评分矩阵(PSSM)表现更佳。研究对 ESM2 生成的特征表示(简称 ESM2-F)和 PSSM 进行了对比,结果显示,在 PATP-388 和 PATP-1930 两个数据集上,ESM2-F 通过五折交叉验证的测试,在使用深度递归神经网络(DRNN)框架和 M 值设定为 1 的情况下,性能均超过 PSSM,在六项评估指标上均取得显著提升。
对加权焦点损失函数中的两个参数 γ 和 w 进行优化,发现特定的 w 和 γ 组合能显著提升模型在上述两个数据集上的表现。
在 DRNN 模型中,研究比较了不同 M 值的性能,结果表明,当 M 值设为 3 和 5 时,模型在 PATP-388 和 PATP-1930 数据集上分别获得了最高的马修斯相关系数(MCC)值。
E2EATP 与现有基于序列的蛋白质-ATP 结合残基预测方法在独立测试集 PATP-TEST 上进行比较,结果表明,E2EATP 在多个评估指标上表现最佳,并在结构信息生成方面也显示出卓越能力。
此外,E2EATP 在新的独立测试集 PATP-NW30-TEST 上的表现同样卓越,尤其在 F1 和 MCC 值上超越了所有其他比较方法。E2EATP 的快速和准确性预示其在未来蛋白质-ATP 结合残基预测领域的重要应用价值。
在案例研究中,E2EATP 对于 5xz9A 和 6rmdD 这两个 ATP 结合蛋白的预测结果显示,其准确度和可靠性均优于 ATPbind 和 DELIA 方法,特别是在 5xz9A 蛋白上,E2EATP 能更准确地预测 ATP 结合残基。
最后,研究者使用 E2EATP 对 UniProt 数据库中所有人类蛋白质的 ATP 结合残基进行了快速预测,发现相较于现有方法,E2EATP 显著缩短了预测时间,展示了其在大规模蛋白质预测领域的潜力。
图 1:DRNN 架构展示
图 2:ESM2-F 与 PSSM 在五折交叉验证测试中的 ROC 曲线和精确度-召回(PR)曲线
- (A) PATP-388 数据集上的 ROC 曲线
- (B) PATP-1930 数据集上的 ROC 曲线
- (C) PATP-388 数据集上的 PR 曲线
- (D) PATP-1930 数据集上的 PR 曲线
图 3:独立测试数据集 PATP-TEST 上 E2EATP(388 和 1930)、DeepATPseq、ATPseq、TargetS 和 NsitePred 的 ROC 曲线和精确度-召回(PR)曲线
- “388”和“1930”表示训练数据集,分别为 PATP-388 和 PATP-1930
- (A) ROC 曲线
- (B) PR 曲线
图 4:独立测试数据集 PATP-NW30-TEST 上 E2EATP(NW30)、DeepATPseq、ATPseq、COACH(AF2) ATPbind(AF2)和 DELIA(AF2)的 ROC 曲线和精确度-召回(PR)曲线
- (A) ROC 曲线
- (B) PR 曲线
图 5:5xz9A 和 6rmdD 预测结果的可视化
- (A) 5xz9A 的真实 ATP 结合残基
- (B) E2EATP 对 5xz9A 的预测结果
- (C) ATPbind 对 5xz9A 的预测结果
- (D) DELIA 对 5xz9A 的预测结果
- (E) 6rmdD 的真实 ATP 结合残基
- (F) E2EATP 对 6rmdD 的预测结果
- (G) ATPbind 对 6rmdD 的预测结果
- (H) DELIA 对 6rmdD 的预测结果
- 使用的颜色方案:黄色代表 ATP,红色代表真正例,蓝色代表假阴性,洋红色代表假阳性。图中展示的卡通蛋白质结构为 5xz9A 和 6rmdD 的实验结构
图 6:207,892 个人类蛋白质预测的 ATP 结合残基数量分布
表 7:E2EATP 与现有方法(DeepATPseq、ATPseq、COACH、ATPbind 和 DELIA)在新独立测试数据集 PATP-NW30-TEST 上的性能比较
- a DeepATPseq 的结果使用独立程序计算,程序可从https://github.com/Zlinlin211/DeepATPseq下载。
- b ATPbind 的结果使用独立程序计算,程序可从https://github.com/jun-csbio/ATPbind/下载。
- c COACH 的结果使用独立程序计算,程序可从https://zhanggroup.org/COACH/下载。
- d DELIA 的结果使用网络服务器计算,地址为http://www.csbio.sjtu.edu.cn/bioinf/delia/。
- e “AF2”表示输入的结构信息由 AlphaFold2 生成。
总结
E2EATP 旨在高效且准确地预测蛋白质与 ATP 结合位点。这一方法采用了蛋白质语言模型 ESM2 和卷积神经网络框架的结合,显著提升了基于序列的蛋白质-ATP 结合位点预测的性能和速度。
ESM2 模型负责快速生成蛋白质序列的特征嵌入,卷积神经网络框架则学习这些特征嵌入中的判别信息。
在独立测试数据集上的实验结果显示,E2EATP 在预测精度方面超越了大多数现有的基于序列和预测结构的 ATP 结合位点预测方法。
此外,E2EATP 能够在大约 0.05 秒内预测一条蛋白质序列的 ATP 结合位点,效率极高。
虽然 E2EATP 仍有提升空间,但它已经成为使用蛋白质语言模型和深度学习算法进行基于序列的 ATP 结合位点预测的最准确工具之一。
未来的工作将聚焦于开发图神经网络以挖掘蛋白质结构中的更多判别特征信息、设计深度迁移学习算法以及提出多任务深度学习算法,进一步提升 ATP 结合位点预测的性能。
缺点:
- 数据不平衡和模型泛化
- 尽管使用了加权焦点损失函数,但未深入探讨数据不平衡对模型训练和预测准确性的影响。
- 可能担心模型无法泛化到训练数据集中未呈现的具有新型 ATP 结合模式的蛋白质。
- 评估范围的局限性
- 评估主要关注定量指标,缺乏展示模型实际效用的定性分析或案例研究。
- 对于 E2EATP 如何贡献于药物发现或理解特定蛋白质功能的实际应用的讨论可能不足。
改进建议
解决数据不平衡和模型泛化问题
- 进行更多实验以评估数据不平衡对预测性能的影响,并探索缓解此问题的额外策略。
- 扩展数据集,包括具有不同 ATP 结合模式的多种蛋白质类型,以测试和改进模型的泛化能力。
扩展评估范围
- 纳入定性评估和案例研究,以说明模型在生物研究和药物发现中的实际应用。
- 讨论 E2EATP 在实际场景中的潜在影响,为研究与其实际效用之间提供更清晰的联系。
参考资料:
Rao, B., Yu, X., Bai, J., & Hu, J. (2023). E2EATP: Fast and High-Accuracy Protein–ATP Binding Residue Prediction via Protein Language Model Embedding. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.3c01298 IF: 5.6 Q1 B2
Data and code: https://github.com/jun-csbio/e2eatp
点击这里👇关注我,记得标星哦~