2019-11-29 记录CNV数据分析学习（五）

一晃一个月过去了，CNV的数据分析还没有做出来结果，今天群里面有人问用WGS测序数据来分析CNV需不需要去PCR重复，然后看了曾老师的解答，他推荐看2篇文章。
https://www.cell.com/ajhg/pdfExtended/S0002-9297(17)30496-2
https://www.nature.com/articles/s41598-019-45835-3.pdf
这两篇文章，前面一篇AJHG是一个团队发表的一个在WGS测序数据里面寻找CNV并做注释的一个流程，他们认为他们的这个流程很棒，对于检测的CNV大于1K的数据来说比较有效，他们自己建库测序然后对比了自己的流程和GATK的流程分析了孤独症的一批数据和后一篇文章的相同的示例数据（NA12878 CNV Benchmark），认为他们自己的流程找到更多的CNV。但是缺点就是更小的，或者二倍体的以外的数据可能就不是太适合。

另一篇是国内的一个小团队做的，比较分析了3种流程来分析WGS和WES的数据，他们比较推崇Strelka2这个分析流程。认为Strelka2这个流程在两种数据分析中都非常有效，而且Strelka2表现比GATK4.0和Samtools-Varscan2二者更为优秀。
这两篇文章都是比较流程但是AJHG的这个团队做的创新性更好，数据非常多，而且花费应该也很高，后面这篇SR就比较讨巧了，他们分析的是别人的方法别人的数据，就是用了很多时间自己分析，找到一个他们认为的最优解，也是很棒的。

不管怎么样，都是学习的榜样，我现在有一点自己的测序数据，然后下载了网络上的其他人的数据。我想用这两个文章推荐的方法进行一下分析，希望能做出点想要的结果来。

前者还提供了一堆网络资料链接，可以收藏一下：
Web Resources
BWA, https://github.com/lh3/bwa/releases
BWA/GATK ALT-aware, https://github.com/lh3/bwa/blob/master/README-alt.md
Clinical Genomic Database, http://research.nhgri.nih.gov/CGD/
Database of Genomic Variants (DGV), http://dgv.tcag.ca/dgv/app/home
FastQC, http://www.bioinformatics.babraham.ac.uk/projects/fastqc
GATK, https://software.broadinstitute.org/gatk/documentation/article.php?id=48017
GATK Blog, https://software.broadinstitute.org/gatk/blog?id=47712
Genome STRiP, http://software.broadinstitute.org/software/genomestrip
Genome STRiP CNV Discovery Pipeline, http://software.broadinstitute.org/software/genomestrip/org_broadinstitute_sv_qscript_CNVDiscoveryPipeline.html
Human Genome Reference Consortium, https://www.ncbi.nlm.nih.gov/grc/human
MSSNG, https://www.mss.ng
NA12878 variation benchmark, ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/technical/svclassify_Manuscript/Supplementary_Information/Personalis_1000_Genomes_deduplicated_deletions.bed
Novoalign, http://www.novocraft.com/products/novoalign
PGP Canada, https://personalgenomes.ca
RepeatMasker, http://www.repeatmasker.org
Repeat Masker repeat definition, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromOut.tar.gz
Repetitive and Low Complexity Region (RLCR) definition (complete), http://tcag.ca/documents/projects/RLCRs.zip
Repetitive and Low Complexity Region (RLCR) definition (no RepeatMasker), http://tcag.ca/documents/projects/RLCRs_no_Repeat_Masker.zip
Sequence Read Archive (SRA), http://www.ncbi.nlm.nih.gov/sra
TCAG-WGS-CNV workflow, https://github.com/bjtrost/TCAG-WGS-CNV-workflow
UCSC assembly gaps, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromAgp.tar.gz
UCSC segmental duplications, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/genomicSuperDups.txt.gz

但是，处理数据真的好复杂，学了那么多分析方法还是解决不了想解决的问题，学以致用的能力有点差。
这个时候就需要鸡血了。
把关注的公众号头条撸一遍。
喝了一桶回来继续。
反正方法都找到了，总会得出结果的，加油！
方法1：

来自AJHG的这篇文献，直接用他选的最优算法走他的流程

方法2：

来自SR的这篇文献，最后选择Strelka2这个流程

后面这文章提到说筛选CNV的算法差异不明显，所有他没有推荐最优的。不管怎么样，先学习了跑一跑再说吧。（祈祷上天能赐我一个小助手。）