生物信息学笔记6:hisat2比对生成sam文件

在上一步,我们建立了index,可以在运行index命令的目录(我是在dnaseq\chrX_data\third\index,这个dnaseq目录是win10和linux的共享文件夹,关于该共享文件夹可能有些人可能还会有点弯路要走,我一开始是在linux下面找不到这个共享文件夹,这个后面如果有时间我会专门写一篇)下找到相应的文件如下图(里面包括了chrX.exon和chrX.ss这两个从gtf文件中提取的,以及剩下的就是index文件,有1-8,但是在比对时用chrX_tran代表):

然后,我们进入samples目录(就是我们下载了序列的目录),如下图:

注意了,上面图片示例都是在win10下截图的,只是为了更好理解,实际这一步还是在linux下操作比较方便,因为接下来要建立一个批处理文件samAA.sh是在linux下运行的。如下图:

建立方法,在linux,samples文件夹,输入命令:

touch samAA.sh

然后编辑该sh文件:

nano samAA.sh

在编辑其中输入命令:

for i in *1.fastq.gz;
do
i=${i%1.fastq.gz*};

nohup hisat2 -p 1 --dta -x /mnt/hgfs/dnaseq/chrX_data/third/index/chrX_tran -1 ${i}1.fastq.gz -2 ${i}2.fastq.gz -S /mnt/hgfs/dnaseq/chrX_data/third/sam-dta/${i}align.sam 2>/mnt/hgfs/dnaseq/chrX_data/third/sam-dta/${i}align.log &
done

保存退出后,在该文件夹下直接输入“sh samAA.sh”运行循环比对(多条序列比对)。

这个命令为什么这么写:

for语句第一行是要取出该目录下序列的文件名,就是1.fastq.gz前面的名字,比如“ERR188428_chrX_”,

do 开始循环,只要存在这样的i就继续执行,以其中循环一遍为例,比如让i=ERR188428_chrX_,

nohup开始在后台运行比对,比如把log保存在“/mnt/hgfs/dnaseq/chrX_data/third/sam-dta/ERR188428_chrX_align.log”里面,这样可以在文件里面查看是否成功,如果不成功问题提示如何。

hisat2 语句中“-p 1”是指单一进程运行比对,可以跟进电脑配置自行调整;

“--dta”是指输出的文件给stringtile继续使用;

“-S”注意这里是大写S,千万注意,这是指定位置输出比对好的sam文件,不要搞成小写s。

好了,比对结果如下图(看一下目录名,和命令行比较):

解释一下:命令行中有“/mnt/hgfs/”,后面才跟上dnaseq目录(这个是两个系统的共享目录),这个是因为linux下面的共享目录要挂载在/mnt/hgfs/下面。

因为比对时随机的,如果你用notepad++打开sam文件会发现里面的内容每次都是不一样的(但总大小一样,因为随机比对,顺序每次都不同),所以sam文件比对好以后还要进行排序,今天就到这里了。

生物信息学笔记4:hisat2的下载安装及环境配置

一、需要分析的序列,比如在samples文件夹里:

ERR188044_chrX_1.fastq.gz

ERR188044_chrX_2.fastq.gz

ERR188104_chrX_1.fastq.gz

ERR188104_chrX_2.fastq.gz

......

我就不一一列出来,这里列出来主要就是想说同一个序列有1和2,就是双端测序的意思

 

二、ubuntu18.04下面hisat2的下载和安装,这个差点忘记写。

先找个目录,比如建立个biosoft的目录,专门用于放生物信息相关软件。

1、命令行先建立后进入该目录:

mkdir ~/biosoft

cd ~/biosoft

2、进入目录后下载hisat2软件:

wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip

3、解压缩下载的zip压缩包(解压后获得hisat2-2.1.0的文件夹):

unzip hisat2-2.1.0-Linux_x86_64.zip

4、改文件目录名(我没有改名字,这步骤可以忽略,也可以把文件夹名字改短点):

mv hisat2-2.1.0 hisat2

5、加环境变量:

很多地方用vi后者vim命令,我用不习惯,我觉得用nano比较方便:

nano ~/.bashrc

然后出现了如下界面,移动光标到末尾,加入“PATH=$PATH:~/biosoft/hisat2-2.1.0:........”:

输入后,保存按ctrl+o,回车,然后ctrl+x退出。

请不要直接用export命令,该命令只能在当前登录窗口有效,断开连接后再次用同一个用户登录,也会重置环境。

保存好后,还需要让环境生效:

source ~/.bashrc

6、环境配置好后可以在任意文件目录输入:hisat2,然后出现如下信息说明配置成功:

 

 

本来想把hisat2的下载安装使用全放在一起,后来转念一想,分开的话以后搜索起来会更方便点。