2018-6-25转录组学习3 参考基因组和基因注释

本文介绍了转录组学习中的关键步骤,包括从UCSC下载人类参考基因组hg19,从gencode数据库获取基因注释文件(GFF和GTF),以及如何使用IGV进行数据可视化。内容详细阐述了参考基因组的选择、注释文件的下载与解析以及IGV的安装与操作,帮助理解基因组数据的处理流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 参考基因组下载

目前常用的国际通用的人类参考基因组在NCBI,UCSC和ENSEMBL的版本和对应情况如下:

NCBIUCSCENSEMBL
GRCH36hg18ENSEMBL release_52
GRCH37hg19ENSEMBL release_59/61/64/68/69/75
GRCH38hg38ENSEMBL release_76/77/78/80/81/82

ENSEMBL和NCBI数据库的版本较为复杂,因此我们选择下载UCSC的hg19作为参考基因组
进入UCSC后选择Downloads > Genome Data > Human > hg19 Full Dataset

使用axel(sudo apt install axel)下载chromFa.tar.gz文件

下载完成后需要解压文件并将所有染色体序列文件拼接整合成一个完整的hg38.fa文件

#解压文件
x chromFa.tar.gz
#整合文件
cat *.fa > hg19.fa
#删除多余文件
rm -rf chr*

hg19.fa

2.基因注释文件下载

参考基因组的解读需要额外的注释文件帮助,我们要在gencode数据库(http://www.gencodegenes.org/)下载需要的注释文件,进入网站后选择Data > Human > GRCh37-mapped Releases


选择最新版本的注释信息,下载GFF和GTF文件

axel ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_28/GRCh37_mapping/gencode.v28lift37.annotation.gtf.gz
axel ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_28/GRCh37_mapping/gencode.v28lift37.annotation.gff3.gz
x *.gz

基因注释文件的两种格式GFF和GTF的区别:
数据结构:都是由9列构成,分别是reference sequence name; annotation source; feature type; start coordinate; end coordinate; score; strand; frame; attributes.前8列都是相同的,第9列不同。
GFF第9列:都是以键值对的形式,键值之间用“=”连接,不同属性之间用“;”分隔,都是以ID这个属性开始。下图中有两个ID,说明是不同的序列。
GTF第9列:同样以键值对的形式,键值之间是以空格区分,值用双引号括起来;不同属性之间用“;”分隔;开头必须是gene_id, transcipt_id两个属性

3. IGV下载与使用

Integrative Genomics Viewer(IGV)是一种探索大型综合基因组数据的高性能交互式可视化工具。它支持各种各样的数据类型,包括基于芯片测序、二代测序数据和基因组注释数据等。

#IGV下载解压
axel http://data.broadinstitute.org/igv/projects/downloads/2.4/IGV_2.4.10.zip
x *.zip
mv IGV_2.4.10 ~/biosoft

解压好后的IGV直接运行IGV.sh就可以使用了
首先,从文件中导入下载好的参考基因组文件

接着导入基因注释文件,打开igvtools对基因注释文件进行sort,之后再导入sort好的注释文件

在NCBI上查找感兴趣的基因(比如LGR5),找到它的染色体位置信息

此处需要注意的是由于基因数据库的版本在不断变化,而hg19属于比较旧的版本,因此我们需要找到之前版本的位置信息即chr12:71832931..71980090

在IGV工具栏的搜索框中输入基因位置chr12:71832931-71980090即可查看lgr5基因的结构
lgr5基因
参考阅读:
生物信息学100个基础问题 —— 第24题 GFF,GTF到底是什么?
生物信息学100个基础问题 —— 第25题 GTF/GFF的注释是怎么来的,应该从哪里下载?

### 转录组注释的技术与方法 转录组注释基因组注释的重要组成部分,通常用于识别描述基因的转录本、剪接变体以及非编码RNA等。以下是转录组注释中常用的技术、方法、工具及流程。 #### 1. 技术与方法 转录组注释的核心在于将RNA序列映射到参考基因组,并通过计算分析确定基因的功能结构。主要技术包括: - **比对技术**:将测序得到的RNA序列(通常是短读或长读)比对到参考基因组上,常用的比对工具包括STAR[^3]、HISAT2[^3]Bowtie2[^3]。 - **从头组装(De Novo Assembly)**:在无参考基因组的情况下,使用算法将RNA序列拼接成连续的转录本。常用工具包括Trinity[^4]SPAdes。 - **功能注释**:利用数据库如UniProt[^3]、Pfam[^3]GO(Gene Ontology),对预测的转录本进行功能分类注释。 #### 2. 工具介绍 以下是几种广泛使用的转录组注释工具及其特点: - **Liftoff**:主要用于基因组注释提升,能够将参考基因组注释映射到新的组装基因组,适用于跨物种比较结构变异分析[^1]。 - **funannotate**:专为真菌设计的全基因组注释管道,支持自动化基因结构预测,并结合多种预测方法提高注释准确性[^2]。 - **blast2GO**:通过比对已知数据库,提供转录本的GO功能分类,特别适合无参考基因组的情况下的功能注释[^4]。 #### 3. 流程概述 转录组注释的一般流程如下: - 数据预处理:去除低质量序列接头污染。 - 比对或组装:根据是否有参考基因组选择比对或从头组装。 - 基因预测:通过软件预测基因结构转录本。 - 功能注释:利用数据库对预测结果进行功能分类注释- 可视化与分析:生成报告并可视化注释结果。 ```python # 示例代码:使用STAR进行RNA-seq数据比对 STAR --runThreadN 8 \ --genomeDir /path/to/genome/index \ --readFilesIn /path/to/R1.fastq /path/to/R2.fastq \ --outFileNamePrefix /path/to/output/ ``` ### 注意事项 在选择工具方法时,需考虑实验设计、数据类型(有参或无参)以及计算资源等因素。例如,对于无参考基因组的物种,推荐使用从头组装blast2GO;而对于有参考基因组的物种,则优先选择比对方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值