本文参考了简书:RNA-seq数据分析---方法学文章的实战练习
我的启蒙文章,现在的生物信息学和以前的比真的是牛逼太多了,以前搞个blast、phylip等就好像差不多了,而实际上那些都算是比较简单的基本操作了。真正要搞懂的不单是碱基的差异,还有表达基因的差异、蛋白功能的差异......
简书中此文已经罗列了为什么用hisat2和stringtile,本文不赘述,反正就是这两个软件的算法可以用最少的时间和最低的资源占用,获得更好更优质的比对结果。
一、练手序列。最好入手的应该还是人类X染色体的序列文件的比对分析,因为X染色有男女的差异、人种的差异,找12个样本(人种各6个,不同人种中男女各3个),算是有一定的生物学重复吧。
序列下载可以有多个途径(建议在win10下用迅雷下载,不然你会疯的,当然和不同网络有关系):
1、linux命令行,很牛逼的样子,可是如果网络不在一个频道,这逼装的再牛也没用,下载速度比蜗牛还不如啊,重新连接次数多了还会自动停止。
命令行如下(这是约翰霍普金斯大学服务器上的数据,练手用的序列):
nohup wget ftp://ftp.ccb.jhu.edu/pub/RNAseq_protocol/chrX_data.tar.gz 2>download.log &
tar zxvf chrX_data.tar.gz
2、迅雷下载,这个不用细说了吧,如果这个不会,建议还是不要学生物信息了。
二、练手序列找好,还要找个参考基因序列和对应参考注释。这个最好自己去下载Ensembl版本,不要用hisat2官方提供的,因为后面涉及到的go分析等等都会用到基因名或编号,这个都需要与网络数据库配套,如果下载一个序列的编号方式不符合这些数据库的标准,那分析很难进行下去,有些编号是转换不了的。Ensembl版本全基因组的注释文件下载
三、目的就是把练手序列map到参考序列上(这个是公认的当前最完整和准确的序列,并不断完善中),参考注释是对应于参考序列的、用来标注出相应序列对应的基因的文件。通过把练手序列map到参考序列,分析出这些练手序列里基因被检测到的次数(因为练手序列通过高通量测序后的结果,这是一个碎片化的随机检测过程,而测序的样本是dna转录成mrna后,反转录的cdna,也就是相当于一个表达文库,那么比然会有基因序列的表达量的差异,这个是我的理解过程,可能会有失偏颇或者谬以千里,欢迎批评指正,共同进步),然后通过分析基因表达的次数(这个可能需要一定的统计学纠正等等),统计出一个接近于真实情况的基因表达情况,进而分析基因表达的差异,同时分析基因和蛋白功能,意图寻找不同细胞的差异所在(比如癌细胞和正常细胞)。
四、另外一个目的就是寻找未知isoforms,就是为了寻找不同基因用的,也就是当以上差异并不能很有效的说明问题关键或者需要更多的解释的时候,可以考虑寻找未知isoforms,很容易做无用功,但是一旦找到未知的关键isoforms,很容易产生重大突破。