GEO数据库

本文介绍了GEO数据库的基本结构,包括GEOPlatform、GEOSample、GEOSeries等组成部分,详细讲解了如何通过GEOquery包从GEO下载数据,如使用FASTQ文件和Bowtie2进行比对,以及在R中处理GEO数据集的方法,如使用exprs()函数提取表达矩阵。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

了解GEO数据库

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42872

https://www.ncbi.nlm.nih.gov/bioproject/PRJNA398328

1.GEO Platform(GPL) 各种芯片、测序仪

2.GEO Sample(GSM) 样本

3.GEO Series(GSE) 数据集(每篇文章都会有一个GSE号) 42589

4.GEO Dataset(GDS)

★我们的起点就是一个数据集(GSE),搞清楚里面有多少Sample(GSM)

★了解GEO中一个GSE页面的信息内容是怎么组成的

bowtie2

fq全称FASTQ,是一种存储生物学序列信息(通常是DNA序列或RNA序列)及其相应质量信息的文本文件格式。FASTQ 文件通常由高通量测序平台生成,例如Illumina。

FASTQ 文件的基本结构如下:

行1: 序列标识符(Sequence Identifier)以“@”开头。 行2: 序列数据,即生物学序列。 行3: 以“+”开头的行,通常包含与序列相关的额外信息,但可能为空。 行4: 质量值,表示与相应序列位置相关的测序质量。

bowtie2是用来做比对的,比对需要参考基因组和fq测序文件,参考基因组需要构建索引

二.GEO数据下载的三种方式

一些生信包的概念:

1.Bioconductor:是一个用于生物信息学和生物统计学的开源软件项目,提供了丰富的 R 语言包和工具 用于处理和分析生物学数据。

1.1GEOquery:用于从(GEO) 数据库中获取实验数据

  1.1.1GEODataSet:提供了用于存储和处理生物学数据的基本类和函数。它

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值