基因组 - Find Elephant

顾名思义，建立基因组索引，主要是提高比对的速度、效率，对剪切位点进行预测，hisat2建立基因组+转录组+SNP索引，so，为什么要建立索引：

高通量测序有成千上万条reads需要高效比对到参考基因组上，并且保证一定的准确率，答案不一定说完全正确，但一定要非常接近真实数据。需要根据参考基因组序列，经过一定算法（大部分情况是BWT或其改良算法）转换成index，把reads通过和index的比较过程进行回贴（maping到参考基因组），大幅度缩短比对maping的时间。（关于BWT算法，请参考：http://www.bio-info-trainee.com/?s=bowtie和http://www.biotrainee.com/thread-26-1-1.html，后期考虑转载过来学习以防链接失效） read more