GFF文件和基因组文件提取mRNA,cds,protein序列

首先是用gffread提取cds序列,蛋白序列,转录本序列

gffread genome.gff3 -g genome.fa -x  cds.fa
gffread genome.gff3 -g genome.fa -y  protein.fa
gffread genome.gff3 -g genome.fa -w  transcripts.fa

接下来我们利用组合工具来提取mRNA,和gene序列

python -m jcvi.formats.gff bed --type=mRNA --key=ID a.gff3 > mRNA.bed
这个需要借助Python 包jcvi包
抽取 GFF文件中mRNA, key是ID
基因也是如此
python -m jcvi.formats.gff bed --type=gene --key=ID  a.chr.gff3  > gene.bed

image.png

注意用bedtools提取序列，要加-s 参数（能区分正反链）

bedtools getfasta -fi ./a.fasta  -bed gene.bed   -nameOnly  -s -fo a.gene.fa

a.gene.fa就是我们需要的文件，同理也可以得到a.mRNA.fa。
再利用提取最长转录本脚本，获得基因中最长可变剪切的序列。

最后编辑于：2022.04.04 23:19:24

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

根据基因组fa文件和gff文件提取cds并翻译成pep
cds文件：注释信息里的蛋白编码序列pep文件：cds对应序列翻译成的氨基酸序列从NCBI上下载基因组时，有的并没...
pomela阅读 19,117评论 1赞 20
根据基因组fa文件和gff文件提取cds并翻译成pep
cds文件：注释信息里的蛋白编码序列pep文件：cds对应序列翻译成的氨基酸序列从NCBI上下载基因组时，有的并没...
生信师姐阅读 13,682评论 2赞 16

RNA-seq练习第二部分（基因组序列下载，注释文件下载，索引下载，比对，比对质控,HTse...
参考基因组下载有三大全文网站提供参考基因组下载，它们分别是：1.NCBI （https://www.ncbi.nl...
生信start_site阅读 14,778评论 4赞 73
基于全基因组的基因家族分析（3）：SlNRAMP家族基因CDS和Genomic DNA序列获取
今天继续进行下一步，也是序列文件的获取，有了这些数据，我们才可以进行下一步的工作，才能够绘制一些图片。 1. CD...
lxmic阅读 11,773评论 3赞 33
如何对基因组序列进行注释
基因组组装完成后，或者是完成了草图，就不可避免遇到一个问题，需要对基因组序列进行注释。注释之前首先得构建基因模型，...
xuzhougeng阅读 52,357评论 14赞 184

28赞29赞

赞赏

手机看全文