2019-11-29 记录CNV数据分析学习(五)

一晃一个月过去了,CNV的数据分析还没有做出来结果,今天群里面有人问用WGS测序数据来分析CNV需不需要去PCR重复,然后看了曾老师的解答,他推荐看2篇文章。
https://www.cell.com/ajhg/pdfExtended/S0002-9297(17)30496-2
https://www.nature.com/articles/s41598-019-45835-3.pdf
这两篇文章,前面一篇AJHG是一个团队发表的一个在WGS测序数据里面寻找CNV并做注释的一个流程,他们认为他们的这个流程很棒,对于检测的CNV大于1K的数据来说比较有效,他们自己建库测序然后对比了自己的流程和GATK的流程分析了孤独症的一批数据和后一篇文章的相同的示例数据(NA12878 CNV Benchmark),认为他们自己的流程找到更多的CNV。但是缺点就是更小的,或者二倍体的以外的数据可能就不是太适合。

另一篇是国内的一个小团队做的,比较分析了3种流程来分析WGS和WES的数据,他们比较推崇Strelka2这个分析流程。认为Strelka2这个流程在两种数据分析中都非常有效,而且Strelka2表现比GATK4.0和Samtools-Varscan2二者更为优秀。
这两篇文章都是比较流程但是AJHG的这个团队做的创新性更好,数据非常多,而且花费应该也很高,后面这篇SR就比较讨巧了,他们分析的是别人的方法别人的数据,就是用了很多时间自己分析,找到一个他们认为的最优解,也是很棒的。

不管怎么样,都是学习的榜样,我现在有一点自己的测序数据,然后下载了网络上的其他人的数据。我想用这两个文章推荐的方法进行一下分析,希望能做出点想要的结果来。

前者还提供了一堆网络资料链接,可以收藏一下:
Web Resources
BWA, https://github.com/lh3/bwa/releases
BWA/GATK ALT-aware, https://github.com/lh3/bwa/blob/master/README-alt.md
Clinical Genomic Database, http://research.nhgri.nih.gov/CGD/
Database of Genomic Variants (DGV), http://dgv.tcag.ca/dgv/app/home
FastQC, http://www.bioinformatics.babraham.ac.uk/projects/fastqc
GATK, https://software.broadinstitute.org/gatk/documentation/article.php?id=48017
GATK Blog, https://software.broadinstitute.org/gatk/blog?id=47712
Genome STRiP, http://software.broadinstitute.org/software/genomestrip
Genome STRiP CNV Discovery Pipeline, http://software.broadinstitute.org/software/genomestrip/org_broadinstitute_sv_qscript_CNVDiscoveryPipeline.html
Human Genome Reference Consortium, https://www.ncbi.nlm.nih.gov/grc/human
MSSNG, https://www.mss.ng
NA12878 variation benchmark, ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/technical/svclassify_Manuscript/Supplementary_Information/Personalis_1000_Genomes_deduplicated_deletions.bed
Novoalign, http://www.novocraft.com/products/novoalign
PGP Canada, https://personalgenomes.ca
RepeatMasker, http://www.repeatmasker.org
Repeat Masker repeat definition, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromOut.tar.gz
Repetitive and Low Complexity Region (RLCR) definition (complete), http://tcag.ca/documents/projects/RLCRs.zip
Repetitive and Low Complexity Region (RLCR) definition (no RepeatMasker), http://tcag.ca/documents/projects/RLCRs_no_Repeat_Masker.zip
Sequence Read Archive (SRA), http://www.ncbi.nlm.nih.gov/sra
TCAG-WGS-CNV workflow, https://github.com/bjtrost/TCAG-WGS-CNV-workflow
UCSC assembly gaps, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromAgp.tar.gz
UCSC segmental duplications, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/genomicSuperDups.txt.gz

但是,处理数据真的好复杂,学了那么多分析方法还是解决不了想解决的问题,学以致用的能力有点差。
这个时候就需要鸡血了。
把关注的公众号头条撸一遍。
喝了一桶回来继续。
反正方法都找到了,总会得出结果的,加油!
方法1:


来自AJHG的这篇文献,直接用他选的最优算法走他的流程

方法2:


来自SR的这篇文献,最后选择Strelka2这个流程

后面这文章提到说筛选CNV的算法差异不明显,所有他没有推荐最优的。不管怎么样,先学习了跑一跑再说吧。(祈祷上天能赐我一个小助手。)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。