基因家族分析(6)顺式作用元件预测

本节讲解如何进行顺式作用元件预测。
一般提取基因上游 1000-2000bp 序列作为 promoter 区域,用于进行顺式作用原件预测。

#首先将鉴定到的基因家族成员注释文件gff3格式转gtf格式(怎么得到鉴定到的基因家族成员注释文件gff3,上篇推文有讲到)
gffread  -T  -o  Ft.gtf  Ft.gff3
#提取基因上游序列
seqkit  subseq   --gtf Ft.gtf  \ #鉴定到基因家族成员的gtf文件
--feature transcript   \ # 提取转录本上游
--up-stream 2000   \ # 提取长度
--id-ncbi    \ # 输出的id格式
--only-flank    \ # 不包括feature本身序列
--gtf-tag  transcript_id   \ # 输出结果添加转录本id
genome.fasta  > gene.upstream.fasta

大家可以根据需要修改>后的id

awk '{if($1~/>/){print ">"$2}else{print $0}}' gene.upstream.fasta > new.gene.upstream.fasta

将promoter fasta 序列上传至PlantCARE网站进行顺式作用元件预测

网址:PlantCARE, a database of plant promoters and their cis-acting regulatory elements (ugent.be)



A:ID
B:名称
C:motif
D:起始位置
E:得分
F:正负链
G:描述

注意:
初始结果顺式作用原件很多很多,所以我们要根据自己的要求筛选,只保留我们需要展示的顺式作用原件。

此时我们需要把过滤后的文件上传到服务器做格式转换(GSDS画图的准备)

#转换plantCARE_output_PlantCARE_*.tab格式成bed格式
awk -F "\t" '{print $1"\t"$4-1"\t"$4+length($3)"\t"$2}' plantCARE_output_PlantCARE_14593.tab  > PlantCARE.bed
# 生成promoter序列的bed文件,用于GSDS软件展示
awk '{print $1"\t0\t2000\tCDS\t."}'   geneID >   gene.upstream.bed
PlantCARE.bed

gene.upstream.bed

有了这两个文件我们就可以去GSDS画图啦



选择对应的文件上传即可

结果出来之后
首先修改这里参数如图,点击redraw即可



结果图



id重叠,我们导出svg格式的图片在AI里面修改即可。

你还可以根据自己的需求添加进化树和配置颜色,上篇推文有讲到。

当然你也可以用ggplot2去做顺式元件图


欢迎关注Bioinfor 生信云微信公众号 了解详细内容!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容