本篇文章主要站在你是分析数据者的角度来讲解,一些测序建库的原理与操作我只做简要说明,甚至一笔带过。关于更多详细内容大家都可以百度了解。主要的篇幅是从公司拿到双端测序的fq.gz后的故事。
准备:一台服务器,参考基因组,基因注释文件。
RNA-seq简介
转录组测序数据产生(简述)
将表型特异的组织提取RNA,然后送到测序公司,经过质检合格后,开始在仪器中测序。数据下机,发到客户手里。
转录组测序数据量与下机数据(简述)
不同物种的基因数量与大小都不尽相同,因此具体情况具体分析,可以跟导师商量讨论后在做决定。以我所在的实验室为例,二倍森林草莓基因组220M,共计大约34000个基因,一个样品测序数据量选择6G(这里的数据量指的是原始数据中碱基的数量,不是文件大小)。另外,测序策略一般都是选择双端测序,建库类型选择真核普通转录组文库。若注释基因组,则选择真核链特异性文库(此文库以后的文章会讲)。
公司的下机数据都是rawdata形式的,这是最原始数据,其中包含一些质量不好的碱基,并且还有接头序列。一般会让公司做去除接头并且去除质量不好的reads,拿到cleandata数据,做这个操作好像一个样加10块(这几天送样做三代测序和二代基因组重测序,公司告诉我这个操作不要钱,都是直接给客户cleandata)。总之,我实验室的其他人都是直接告诉公司要cleandata。Rawdata自己也要保存一份。并且公司还有给一个md5.txt之类的文本(文件很重要,检查文件的完整性)。
测序数据上传到服务器