GATK DepthOfCoverage 太慢

gatk DepthOfCoverage \
    --input ../duplicates_marked_sorted_fixed.BQSR.bam  \
    -L  whole_exome_illumina_hg38.targets.interval_list \
    -O test.coverage.csv \
    --create-output-variant-index \
    -R Homo_sapiens_assembly38.fasta \
    --output-format CSV \
    --print-base-counts \
    --QUIET

DepthOfCoverage会输出7个文本结果。其中一个是按照interval上的每个碱基,输出一行统计信息,所以会比较慢:

.DepthOfCoverage.txt结果


image.png

DepthOfCoverage为基因组上的每个碱基输出一行结果,这导致结果文件太大,而且运行速度极慢,如果不需要每个碱基,则可以设置--omit-depth-output-at-each-base,

.sample_interval_summary结果:


image.png

.sample_summary结果:


image.png

.sample_interval_statistics结果


image.png

.sample_statistics结果:


image.png

.sample_cumulative_coverage_counts结果:


image.png

另外如果可以将interval list拆分成更多的话,区间统计能够合并,但是GATK不能输出合并的结果

按照每个碱基的深度结果,可以写脚本处理成为按染色体统计深度,和覆盖度的表格:


image.png

最后用统计结果画图:


coverage and depth.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一、简介 Samtools是一个用于操作sam和bam格式文件的应用程序集合,具有众多的功能。 它从SAM(序列比...
    Davey1220阅读 21,421评论 2 33
  • 上次我们整理到bwa比对后得到bam文件,下一步我们要通过GATK流程从bam文件中call variant。 一...
    耕读者阅读 2,360评论 0 2
  • 上次我们整理到bwa比对后得到bam文件,下一步我们要通过GATK流程从bam文件中call variant。 一...
    耕读者阅读 2,104评论 0 4
  • GATK(全称The Genome Analysis Toolkit)是Broad Institute开发的用于二...
    Greatji阅读 34,396评论 0 18
  • 第一课:安装与基本操作 R的扩展包在R官网CRAN;另外,R官网还包含很多扩展资料,包括源代码,手册,FAQ,推荐...
    lizi_sjtu阅读 694评论 0 0