views

生物信息学笔记5:用hisat2软件包建立基因组index

本文是全系列中第5 / 7篇:生物信息学笔记

顾名思义,建立基因组索引,主要是提高比对的速度、效率,对剪切位点进行预测,hisat2建立基因组+转录组+SNP索引,so,为什么要建立索引:

高通量测序有成千上万条reads需要高效比对到参考基因组上,并且保证一定的准确率,答案不一定说完全正确,但一定要非常接近真实数据。需要根据参考基因组序列,经过一定算法(大部分情况是BWT或其改良算法)转换成index,把reads通过和index的比较过程进行回贴(maping到参考基因组),大幅度缩短比对maping的时间。(关于BWT算法,请参考:http://www.bio-info-trainee.com/?s=bowtie和http://www.biotrainee.com/thread-26-1-1.html,后期考虑转载过来学习以防链接失效)

步骤:

1、从注释文件里面抽取出剪切位点和外显子信息,用到hisat2文件夹下面的extract_splice_sites.py和extract_exons.py

比如,注释文件在此路径:chrX_data/genes/chrX.gtf

这个gtf文件最好自己从Ensembl上下载,或者Entrez上下载。

则命令行:

extract_splice_sites.py chrX_data/genes/chrX.gtf >chrX.ss

extract_exons.py chrX_data/genes/chrX.gtf >chrX.exon

2、用hisat2建立index

hisat2-build --ss chrX.ss --exon chrX.exon chrX_data/genome/chrX.fa chrX_tran

3、当需要使用snp信息时,命令行需加入下面几行

extract_snps.py snp142Common.txt > genome.snp  #####注释:本行井号后面请勿复制,本命令主要是将snp信息文件转换成hisat2可以使用的文件

hisat2-build -p4 genome.fa --snp genome.snp --ss genome.ss --exon genome.exon genome_snp_tran

 

特别忠告:如果是用chrX练手,而且你的电脑内存大于10G,那可以尝试自己建立index,其他情况,请下载现有index,因为这步工作内存小干不了,内存大也需要时间去完成(是很多很多很多时间)。

《生物信息学笔记5:用hisat2软件包建立基因组index》上有1条评论

  1. I've been browsing online more than 3 hours as of late, but I
    never found any interesting article like yours. It's beautiful price enough for me.
    In my opinion, if all site owners and bloggers made excellent content as
    you did, the internet can be much more helpful than ever before.

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Captcha Code