一.测序知识
1.三种测序技术对比

2.测序专有名词
①基因组学(核酸序列分析)
②转录组学(基因表达分析):
(1)mRNA-Seq
(2)IncRNA-Seq(长链非编码RNA)
(3)sRNA-Seq(主要是miRNA-Seq)
③蛋白质组学
④代谢组学
二.测序技术原理及常用数据格式简介
1.第一代测序技术:
1977年Sanger等发明双脱氧核苷酸末端终止法和Gilbert等发明的化学降解法。
Sanger测序原理
由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应。在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP,得到片段大小不一致的DNA混合物,然后通过凝胶电泳分离和放射自显影后识别确定待测分子的DNA序列。
特点:准确性高,读长长,通量低
2.第二代测序技术
第二代测序技术(Next-generation sequencing)应运而生。
代表有Roche公司的454技术、Illumina公司的Solexa技术和Life technologies(ABI)公司的SOLiD技术;Life technologies公司的Ion Torrent和Ion Proton技术等,经过不断的竞争,454、SOLiD 和Helicos平台不再开发新的仪器,Illumina平台最终成为市场主流,其方法为边合成边测序。
Illumina平台:边合成边测序
操作流程:
1.DNA文库构建
2.簇的生成——桥式PCR
3.测序
4.数据生成
特点:通量高、时间短、读长短。
3.第三代测序技术
即单分子实时DNA测序。DNA测序时,不需要经过PCR扩增,实现了对每一条DNA分子的单独测序,凭借超长的读长和可直接检测表观修饰等特点使其成为市场的新宠。目前以Pacific Biosciences公司的SMRT技术和Oxford Nanopore Technologies公司的纳米孔单分子技术为主流。
三.常用数据格式
1.DNA序列表征
A =腺嘌呤
C =胞嘧啶
G =鸟嘌呤
T =胸腺嘧啶
U =尿嘧啶
R = GA(嘌呤)
Y = TC(嘧啶)
K = GT(酮)
M = AC(氨基)
S = GC
W = AT
B = GTC
D = GAT
H = ACT
V = GCA
N = AGCT(任何)
2.Fastq & Fasta
Fastq格式:一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。
第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;
第二行:碱基序列;
第三行:由‘+’开始,后面是序列的描述信息;
第四行:第二行序列的质量评价(quality value)。
例如:

Fasta格式:

1:以“>”为开头,fasta格式标志。
2:序列ID号,gi号,NCBI数据库的标识符,具有唯一性。
格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。
3:序列描述。
4:碱基序列,序列中允许空格、换行、空行,一般一行60个。
如何将Fastq文件→Fasta文件?
Linux命令
法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2:seqtk seq -A input.fastq > output.fasta
推荐处理软件:
FASTX-Toolkit
GenBank & EMBL


本文详细介绍了测序技术的三种主要类型,包括Sanger测序、第二代高通量测序(如Illumina)和第三代单分子实时测序。此外,还概述了测序专有名词,如基因组学、转录组学等,并讨论了常用的DNA序列数据格式如Fastq和Fasta。
1283

被折叠的 条评论
为什么被折叠?



