一晃一个月过去了,CNV的数据分析还没有做出来结果,今天群里面有人问用WGS测序数据来分析CNV需不需要去PCR重复,然后看了曾老师的解答,他推荐看2篇文章。
https://www.cell.com/ajhg/pdfExtended/S0002-9297(17)30496-2
https://www.nature.com/articles/s41598-019-45835-3.pdf
这两篇文章,前面一篇AJHG是一个团队发表的一个在WGS测序数据里面寻找CNV并做注释的一个流程,他们认为他们的这个流程很棒,对于检测的CNV大于1K的数据来说比较有效,他们自己建库测序然后对比了自己的流程和GATK的流程分析了孤独症的一批数据和后一篇文章的相同的示例数据(NA12878 CNV Benchmark),认为他们自己的流程找到更多的CNV。但是缺点就是更小的,或者二倍体的以外的数据可能就不是太适合。
另一篇是国内的一个小团队做的,比较分析了3种流程来分析WGS和WES的数据,他们比较推崇Strelka2这个分析流程。认为Strelka2这个流程在两种数据分析中都非常有效,而且Strelka2表现比GATK4.0和Samtools-Varscan2二者更为优秀。
这两篇文章都是比较流程但是AJHG的这个团队做的创新性更好,数据非常多,而且花费应该也很高,后面这篇SR就比较讨巧了,他们分析的是别人的方法别人的数据,就是用了很多时间自己分析,找到一个他们认为的最优解,也是很棒的。
不管怎么样,都是学习的榜样,我现在有一点自己的测序数据,然后下载了网络上的其他人的数据。我想用这两个文章推荐的方法进行一下分析,希望能做出点想要的结果来。
前者还提供了一堆网络资料链接,可以收藏一下:
Web Resources
BWA, https://github.com/lh3/bwa/releases
BWA/GATK ALT-aware, https://github.com/lh3/bwa/blob/master/README-alt.md
Clinical Genomic Database, http://research.nhgri.nih.gov/CGD/
Database of Genomic Variants (DGV), http://dgv.tcag.ca/dgv/app/home
FastQC, http://www.bioinformatics.babraham.ac.uk/projects/fastqc
GATK, https://software.broadinstitute.org/gatk/documentation/article.php?id=48017
GATK Blog, https://software.broadinstitute.org/gatk/blog?id=47712
Genome STRiP, http://software.broadinstitute.org/software/genomestrip
Genome STRiP CNV Discovery Pipeline, http://software.broadinstitute.org/software/genomestrip/org_broadinstitute_sv_qscript_CNVDiscoveryPipeline.html
Human Genome Reference Consortium, https://www.ncbi.nlm.nih.gov/grc/human
MSSNG, https://www.mss.ng
NA12878 variation benchmark, ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/technical/svclassify_Manuscript/Supplementary_Information/Personalis_1000_Genomes_deduplicated_deletions.bed
Novoalign, http://www.novocraft.com/products/novoalign
PGP Canada, https://personalgenomes.ca
RepeatMasker, http://www.repeatmasker.org
Repeat Masker repeat definition, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromOut.tar.gz
Repetitive and Low Complexity Region (RLCR) definition (complete), http://tcag.ca/documents/projects/RLCRs.zip
Repetitive and Low Complexity Region (RLCR) definition (no RepeatMasker), http://tcag.ca/documents/projects/RLCRs_no_Repeat_Masker.zip
Sequence Read Archive (SRA), http://www.ncbi.nlm.nih.gov/sra
TCAG-WGS-CNV workflow, https://github.com/bjtrost/TCAG-WGS-CNV-workflow
UCSC assembly gaps, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromAgp.tar.gz
UCSC segmental duplications, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/genomicSuperDups.txt.gz
但是,处理数据真的好复杂,学了那么多分析方法还是解决不了想解决的问题,学以致用的能力有点差。
这个时候就需要鸡血了。
把关注的公众号头条撸一遍。
喝了一桶回来继续。
反正方法都找到了,总会得出结果的,加油!
方法1:

方法2:

后面这文章提到说筛选CNV的算法差异不明显,所有他没有推荐最优的。不管怎么样,先学习了跑一跑再说吧。(祈祷上天能赐我一个小助手。)
