GEO TCGA:
数据下载:
首先在搜索栏搜索相应的癌症

一个课题Series里面有10个样本Samples,制作基因芯片的公司,检测平台,芯片编号等Platforms
点进自己需要的项目之后
点击


上面肿瘤组,下面正常组

分组,建组之后,数据很少,把相应的选中,再点组名放到组里面

根据p值由小到大一次排列,把具有统计学意义的基因筛查出来
P值,可以见到是由小到大的,p值越小,证明一个基因在正常组和肿瘤组间的差异越有统计学意义,t值是两组值t检验后的值

B:经贝叶斯调整后的得到的标准
LogFC:两组表达量间以2为底数的变化倍数(正常组比肿瘤组,再放上log2)


有些gene是空着的,这可能是还没研究清楚或者功能没确定

1.最好下载原始数据,不要下载矩阵数据,因为它有可能没有经过log2处理,探针表达量在几千几万以上,表达量在14以下,是经过log2处理的
2.原始数据里有探针信息没有基因信息,要利用平台的注释文件将探针转化为基因,通过基因表达量的差异筛选出不同组织间的差异基因

从上至下分别是平台文件,矩阵文件和原始文件
←关于探针

通过扫描得到DAT文件(荧光信号图像文件) 通过GCOS(图像处理软件)得到下面的文件,CEL文件通过RMA算法,背景矫正,标准化等处理得到基因表达数据,如果要处理数据,要选择CEL文件,不要选择其他类型的

将下载的文件解压,然后放到cel文件夹了,然后根据网页上的信息分类


然后运行代码,进行表格生成和合并

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



