Adv Sci | 基因组倍性检测工具的选择指南,选择困难症的福音

[Benchmarking Ploidy Estimation Methods for Bulk and Single-Cell Whole Genome Sequencing]文章首次系统评估了19种倍性检测算法在肿瘤基因组分析中的性能,为癌症临床诊断和基础研究提供了工具选择的关键标准。

染色体数量变异引起的细胞倍性异常是癌症的重要标志,与肿瘤演进和患者预后密切相关。尽管已有多种基于全基因组测序的倍性检测工具,但其性能缺乏统一评估。该研究通过整合实验数据集和涵盖不同测序平台、肿瘤纯度梯度及测序深度的模拟数据集,对11种常规WGS工具和8种单细胞工具进行了全面测试。研究发现,在肿瘤纯度大于30%的常规样本中,算法PURPLE展现出最优性能,即使在10X低深度测序条件下仍保持稳定;而对于低纯度样本,PyLOH在纯度评估中表现突出但倍性检测能力有限。在单细胞测序领域,SeCNV算法在肿瘤细胞倍性识别中准确率最高。值得注意的是,所有现有工具均无法准确识别全基因组加倍所引起的异常整倍体细胞,且难以适配长读长测序数据。

该研究进一步揭示了工具性能的关键影响因素:数据预处理流程可提升TitanCNA等工具的纯度评估精度;基于Strelka的突变检测策略在保证准确性的同时将效率提升17倍;测序深度对Accucopy等工具有显著制约。这些发现为肿瘤基因组异质性研究、癌症预后标记物开发及个体化治疗策略提供了方法学支撑。


基准评估策略概述

由于bulk和single-cell全基因组测序数据在倍性估算方面存在差异,设计了不同的策略,以在不同情境下评估各类方法的性能。

对于bulk,系统性地评估了其在不同平台、测序覆盖度和肿瘤纯度条件下,估算肿瘤纯度与倍性的准确性,使用了两个实验生成实验数据集和基于SEQC2数据生成的三个模拟数据集:

  • 数据集1:来自SEQC2联盟的公开WGS数据,使用多倍体乳腺癌细胞系HCC1395(倍性约为2.8n)及其配对的二倍体淋巴细胞系HCC1395BL(来自同一个体)。将HCC1395与HCC1395BL的DNA按不同比例混合(5%、10%、20%、50%、75%),并在Illumina HiSeq 4000平台上进行测序。

  • 数据集2:为本研究自行生成的数据,用于评估二倍体与多倍体状态的区分能力。我们通过有丝分裂滑移诱导RPE-1细胞(经hTERT永生化的人视网膜色素上皮细胞)发生全基因组加倍(WGD),然后通过流式细胞术分选,获得二倍体与四倍体或八倍体细胞按1:1比例混合的WGS数据。

  • 数据集3:用于平台特异性比较。我们收集了HCC1395与HCC1395BL在六个平台上的WGS数据(HiSeq 3000、HiSeq 4000、HiSeq X Ten、NovaSeq 6000为短读长平台;PacBio与Oxford Nanopore为长读长平台),并基于真实数据模拟了低、中、高纯度的肿瘤样本。

  • 数据集4:用于评估不同肿瘤纯度下的性能。以10%为步长,从10%至90%构建了不同纯度的肿瘤样本混合数据。

  • 数据集5:用于评估测序深度的影响。我们对数据集1中的混合样本进行下采样,生成不同覆盖度(2×、5×、10×、30×、50×、80×、100×)下的低、中、高纯度样本。

纯度估算的准确性主要通过均方根误差(RMSE)和皮尔逊相关系数(PCC)来衡量,而估算倍性与真实倍性之间的偏差则通过RMSE进行量化。

对于单细胞测序方法,由于其可直接测定单个细胞的倍性,无需进行纯度评估,因此我们使用两个已公开的、具有独立倍性信息的数据集来评估其倍性检测能力:

  • 一个数据集基于acoustic cell tagmentation技术,包含8个细胞群体,倍性范围为2.65N至3.95N。由于该数据集缺乏正常二倍体细胞,因此不适用于如SCOPE和CNVeil等需要“肿瘤-正常配对”模式的工具。

  • 另一个数据集基于单细胞全基因组扩增(scWGA)技术,包含99个细胞(排除1个无映射读数的细胞),倍性范围为1.7N至3.3N,适用于“仅肿瘤”和“肿瘤-正常配对”两种模式。

倍性估算的准确性通过RMSE和异常值比例(即估算倍性与真实倍性之间绝对差值超过某一阈值的细胞比例)来衡量。


Bulk测序中肿瘤倍性和纯度计算方法的评估

文中共评估了11种用于批量 WGS 数据的计算方法。其中10种方法同时利用了 read depth 和 BAF 信息,包括:

ASCAT、ABSOLUTE、absCNAseq、PyLOH、TITAN、Sequenza、FACETS、Sclust、PURPLE 和 Accucopy

而CNAnorm仅依赖于read depth。

数据预处理与突变检测策略的影响

为了在进行倍性估算前统一分析流程,我们首先评估了比对预处理和突变检测策略对结果的影响。

  • 尽管如去除PCR重复、过滤低质量比对等预处理步骤在WGS分析中是常规操作,但在所评估工具的用户手册中并未明确说明是否必须执行。
  • 分析发现,预处理略微提升了TitanCNA、Accucopy 和 Sequenza的纯度估算准确性,但对倍性估算影响不大。
  • 此外,尽管大多数工具内置了突变检测模块,ABSOLUTE、absCNAseq 和 Sclust仍需用户提供突变文件作为输入。使用BAF信息可显著提升这些工具的估算性能,但不同突变检测流程是否会影响结果尚不明确。
  • 比较了两种常用的突变检测策略:GATK与Strelka。结果显示,两者在肿瘤纯度与倍性估算上无显著差异,但Strelka的运行速度比GATK快17倍以上。
  • 基于以上发现,在后续分析中统一采用Strelka进行突变检测,并标准化了比对预处理步骤。

肿瘤纯度对估算准确性的影响

使用数据集4 (涵盖10%–90 纯度,步长为10%) 系统评估了不同纯度条件下各工具的表现。

  • 判定标准:

    • 倍性估算准确:RMSE < 0.2
    • 纯度估算准确:RMSE < 2%
  • 低纯度(≤20%):

    • 大多数工具在纯度与倍性估算上表现较差,与既往 CNV 分析研究一致。
    • Accucopy 与 PURPLE 在 20% 纯度下表现尚可;
    • PyLOH 在 10% 和 20% 纯度下纯度估算较准,但其倍性估算始终固定为 2,无法反映真实倍性。
  • 中高纯度(≥30%):

    • ASCAT 与 PURPLE明显优于其他方法;
    • ASCAT 在纯度 ≥50% 时表现稳健;
    • PURPLE 在整个中高纯度范围内均保持高准确性;
    • 但 ASCAT 存在系统性高估倍性约 +0.24的偏差。

测序覆盖度的影响

使用数据集5(覆盖度从 2× 到 100×,含低、中、高纯度样本)评估了覆盖度对工具表现的影响。

  • 低纯度样本:

    • Accucopy表现优于其他工具,符合其专为低纯度设计的定位;
    • 但其仅在覆盖度 >50× 时才能获得准确的纯度与倍性估算;
    • 其在数据集4(10% 纯度)中表现不佳,而在数据集5中表现改善,提示其在重复性方面存在不稳定性(见图 S4A、B)。
  • 中高纯度样本:

    • PURPLE表现最为稳健,在10× 覆盖度即可达到稳定估算,性能在此后基本趋于平稳(见图 3B);
    • 但在低纯度样本中,PURPLE 存在系统性高估倍性与纯度的倾向(见图 S3B)。

对正常二倍体与多倍体混合样本的识别能力

使用数据集2(二倍体与四倍体或八倍体细胞 1:1 混合)评估了工具识别正常倍性状态的能力。

  • 大多数方法无法准确识别此类样本的倍性,RMSE 远高于 0.2;
  • 原因可能是这些工具过度依赖 BAF 信息,而 WGD 样本中 BAF 信号不具区分度;
  • 尽管大多数工具采用“肿瘤-正常配对”模式,ASCAT 与 PURPLE也支持“仅肿瘤”模式;
    • 在该模式下,两者的倍性估算准确性有所下降;
    • 但PURPLE在 50% 和 75% 纯度下仍能保持可接受的准确性;
    • 因此,对于无正常对照的样本,推荐使用PURPLE进行纯度与倍性估算。

测序平台的影响

评估了不同测序平台(短读长与长读长)对工具表现的影响。

  • 短读长平台(如 HiSeq、NovaSeq):

    • 大多数工具在不同平台间表现一致;
    • 例外:TitanCNA在 HiSeq 3000 和 HiSeq X Ten 上表现较好,但在 NovaSeq 和 HiSeq 4000 上表现差;
    • 该平台差异在数据集4(HiSeq 4000)中也得到验证;
    • TitanCNA 在所有平台上均系统性高估倍性、低估纯度。
  • 长读长平台(PacBio 与 Nanopore):

    • 无任何工具能成功分析 Nanopore 数据;
    • 在支持 PacBio 数据的 3 个工具中,仅ASCAT明确宣称支持长读长;
    • 但所有工具在长读长平台上均表现不佳,表明现有算法尚未适应长读长测序技术。

单细胞测序中倍性估算方法的评估

文中共评估了8 个单细胞 WGS 倍性估算工具,其中:

  • 6 个工具支持“仅肿瘤”与“肿瘤-正常配对”两种模式:
    HMMcopy、Ginkgo、AneuFinder、SeCNV、rcCAE、scAbsolute
  • 2 个工具仅支持“肿瘤-正常配对”模式:
    SCOPE、CNVeil

仅肿瘤模式

  • 使用ACT 数据集(8 个细胞群体,倍性范围 2.65N–3.95N)评估“仅肿瘤”模式性能。
  • SeCNV表现最佳:在所有细胞群体中估算最准确,平均异常值比例最低(10.8 %)。
  • TN4 与 TN5群体在所有工具中异常值比例均显著升高,其中TN4此前已被报道存在“不可识别”问题,因此后续分析将其剔除。
  • rcCAE在多数群体中也表现出稳健估算能力。
  • 偏差方向:大多数工具倾向于系统性低估倍性,尤以AneuFinder最为明显。

肿瘤-正常配对

  • 使用scWGA 数据集(99 个细胞,倍性范围 1.7N–3.3N)评估“肿瘤-正常配对”模式。
  • CNVeil、SCOPE、SeCNV、scAbsolute均表现优异,平均 RMSE < 0.1。
    • CNVeil准确性最高,但其开发者曾在此数据集上进行调优,泛化能力可能受限。
    • SCOPE 与 CNVeil需提供正常二倍体细胞,适用性受限。
  • AneuFinder 与 rcCAE在该数据集中出现严重的全局性低估倍性。

综合结论

  • SeCNV在两种模式下均表现优异,准确性高、偏差小、适用性广,推荐为单细胞倍性估算首选工具。
  • 尽管 SeCNV 的 CPU 时间并非最短,但在多核系统上处理 100 个细胞仍可在1小时内完成,可接受。
  • 稳定性:SeCNV、scAbsolute、CNVeil 在重复运行中变异小;AneuFinder、rcCAE 偏差大。
  • 计算资源:AneuFinder、rcCAE、Ginkgo 最快最省内存;SeCNV 资源消耗较高,但仍在可接受范围内。

稳定性与计算性能分析

肿瘤纯度与倍性估算本质上存在“多解”问题:同一套基因组拷贝数特征可以用不同的{纯度, 倍性}组合加以解释,尤其当发生全基因组加倍(WGD)时,B等位基因频率(BAF)信号失效,进一步加剧歧义。因此,工具在重复实验或多次运行中的结果稳定性成为关键评价指标。此外,工具运行所使用的CPU、RAM资源以及计算速度也是考量的因素。

综合以上的评估内容,从准确性、稳定性、资源资源消耗等方面考量,bluk数据优先选PURPLE;单细胞数据优先选SeCNV。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容