转录组分析(8) - 可变剪接

真核生物大部分基因含有内含子,转录完成后产生的mRNA前体需要经过一系列复杂的加工,成为成熟的mRNA,转移到细胞质中才能发挥功能。可变剪接(Alternative Splicing,AS)是指从一个mRNA前体中通过不同的剪接方式,对外显子和内含子进行组合,产生不同的mRNA剪接异构体的过程。可变剪接受到具有特殊结构域的顺式调控元件(RNA motif)和识别这些motif的RNA结合蛋白(RNA binding protein)调控 。RNA-seq通常是二代转录组,可以通过高深度的测序数据组装构建转录本序列,预测外显子与内含子的结构并识别出可变剪接模式,假阳性不小。相比之下,三代全长转录组利用其读长更长的优势,可以直接读取转录本的全长序列,无需打断、组装,直接获得全长转录本的结构信息,能够更加准确的分析生物体内存在可变剪接事件。选择哪种测序方式需要考虑实际情况综合考虑。

rMATS

rMATS是一款对RNA-Seq数据进行差异可变剪切分析的软件。其通过rMATS统计模型对不同样本(有生物学重复的)进行可变剪切事件的表达定量,然后以likelihood-ratio test计算P value来表示两组样品在IncLevel(Inclusion Level)水平上的差异(从公式上来看,IncLevel跟PSI的定义也是类似的),lncLevel并利用Benjamini Hochberg算法对p value进行校正得FDR值。

安装
conda activate py2
conda install rmats
conda install rmats2sashimiplot
运行
mkdir -p $output/4.4.4_rmats
echo $output/4.3.1_Tophat2/A_rep1.uniq.sorted.bam,$output/4.3.1_Tophat2/A_rep2.uniq.sorted.bam,$output/4.4.1_Tophat2/A_rep3.uniq.sorted.bam>$output/4.4.4_rmats/A.txt
echo $output/4.4.1_Tophat2/B_rep1.uniq.sorted.bam,$output/4.4.1_Tophat2/B_rep2.uniq.sorted.bam,$output/4.4.1_Tophat2/B_rep3.uniq.sorted.bam>$output/4.4.4_rmats/B.txt
mkdir -p $output/4.4.4_rmats/A_vs_B
rmats.py --b1 $output/4.4.4_rmats/A.txt --b2 $output/4.4.4_rmats/B.txt --gtf $dir_geo/4_Bowtie2/XXX.genome.gtf --od $output/4.4.4_rmats/A_vs_B -t paired --readLength 125 --cstat 0.0001 --nthread 6 --tmp $output/4.4.4_rmats/A_vs_B
mkdir -p $output/4.4.5_rmats2sashimiplot/
mkdir -p $output/4.4.5_rmats2sashimiplot/A_vs_B
rmats2sashimiplot --b1 $output/4.4.1_Tophat2/A.uniq.sorted.bam,$output/4.4.1_Tophat2/A_rep2.uniq.sorted.bam,$output/4.4.1_Tophat2/A_rep3.uniq.sorted.bam --b2 $output/4.4.1_Tophat2/B_rep1.uniq.sorted.bam,$output/4.4.1_Tophat2/B_rep2.uniq.sorted.bam,$output/4.4.1_Tophat2/B_rep3.uniq.sorted.bam -t SE -e $output/4.4.4_rmats/A_vs_B/SE.MATS.JC.txt --l1 A --l2 B --exon_s 1 --intron_s 1 -o $output/4.4.5_rmats2sashimiplot/A_vs_B 
结果

MATS的结果文件是以各个可变剪切事件的分布的,主要由AS_Event.MATS.JC.txt,AS_Event.MATS.JCEC.txt,fromGTF.AS_Event.txt,JC.raw.input.AS_Event.txt,JCEC.raw.input.AS_Event.txt这几类;其中JC和JCEC的区别在于前者考虑跨越剪切位点的reads,而后者不仅考虑前者的reads还考虑到比对到没有跨越剪切位点的reads,但一般仅使用最重要的.Event.MATS.JC.txt的结果(如果只是单纯的比较两组样品间可变剪切的差异的话;最后采用rmats2sashimiplot对结果绘图。

ASprofile

ASprfile软件对由StringTie对Hisat2的比对结果进行拼接的结果文件获取每个样本存在的可变剪接类型及相应表达量。

安装
wget https://ccb.jhu.edu/software/ASprofile/ASprofile.tar.gz
tar -zxvf ASprofile.tar.gz
cd ASprofile.*

Leafcutter

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 作者:椰子糖审稿:童蒙编辑:amethyst 可变剪切能够产生多种类型的mRNA,因此一个基因就可以产生多种不同的...
    生信阿拉丁阅读 9,408评论 3 16
  • 可变剪切介绍: 什么是基因的可变剪切? 有些基因的前体mRNA(pre-mRNA)通过不同的剪接方式(选择不同的剪...
    尧小飞阅读 9,281评论 7 25
  • 可变剪切定义 有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一...
    生信修炼小站阅读 20,168评论 1 19
  • 1hisat2 1.1介绍 • 总体上来说HISAT利用了BWA和Bowtie的算法,同时解决了mRNA中不存在内...
    nnlrl阅读 6,953评论 4 4
  • 今天感恩节哎,感谢一直在我身边的亲朋好友。感恩相遇!感恩不离不弃。 中午开了第一次的党会,身份的转变要...
    迷月闪星情阅读 10,624评论 0 11