了解GEO数据库
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42872
https://www.ncbi.nlm.nih.gov/bioproject/PRJNA398328
1.GEO Platform(GPL) 各种芯片、测序仪
2.GEO Sample(GSM) 样本
3.GEO Series(GSE) 数据集(每篇文章都会有一个GSE号) 42589
4.GEO Dataset(GDS)
★我们的起点就是一个数据集(GSE),搞清楚里面有多少Sample(GSM)
★了解GEO中一个GSE页面的信息内容是怎么组成的
bowtie2
fq全称FASTQ,是一种存储生物学序列信息(通常是DNA序列或RNA序列)及其相应质量信息的文本文件格式。FASTQ 文件通常由高通量测序平台生成,例如Illumina。
FASTQ 文件的基本结构如下:
行1: 序列标识符(Sequence Identifier)以“@”开头。 行2: 序列数据,即生物学序列。 行3: 以“+”开头的行,通常包含与序列相关的额外信息,但可能为空。 行4: 质量值,表示与相应序列位置相关的测序质量。
bowtie2是用来做比对的,比对需要参考基因组和fq测序文件,参考基因组需要构建索引
二.GEO数据下载的三种方式
一些生信包的概念:
1.Bioconductor:是一个用于生物信息学和生物统计学的开源软件项目,提供了丰富的 R 语言包和工具 用于处理和分析生物学数据。
1.1GEOquery:用于从(GEO) 数据库中获取实验数据
1.1.1GEODataSet:提供了用于存储和处理生物学数据的基本类和函数。它