通过blast在基因组中找相似序列

人类基因组中存在大量的重复区域,给定一段序列,如何知道这段序列在基因组中是否具有唯一比对,或者具有多个比对?

一种方法是通过bwa,通过AS和XS 标签判断是否有次优比对;但是这种方法无法知道这段序列所有可能的比对位置;

另一种方法就是blast,blast分为网页版以及本地版;

网页版blast

网址:https://blast.ncbi.nlm.nih.gov/Blast.cgi


点击Human,出现如下页面; 通过左上角的菜单,可选择比对数据库的类型;另外还可以设置参卡基因组的版本;


将序列复制到文本框中,点击blast;

本地版blast

1. 建立比对数据库

makeblastdb   -in  in.fasta   -dbtype nucl  -parse_seqids  -out  outdatabase

2. blast比对

blastn  -query  query.fasta  -out   query.fasta.blast   -db  outdatabase -outfmt   6

3. 比对结果如下

格式说明:

Query id,  Subject id, % identity, alignment length, mismatches, gap openings, q. start,  q. end,  s. start,  s. end,  e-value,  bit score

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容