基因表达阵列与联立方程的Python求解
基因表达阵列分析
数据归一化
在基因表达阵列实验中,每个实验约有1600个数据点。由于实验存在差异,数据的标准差可能不同,这就需要进行归一化处理,以消除偏差。标准做法是使所有文件的均值为0,标准差为1,具体步骤如下:
1. 减去均值。
2. 除以标准差。
以下是实现该过程的Python代码:
lds = []
glists =[]
for i in range( len( fnames )):
name = indir + fnames[i]
y,glist = NormGeneExp(name)
y = y-y.mean ()
y = y/y.std()
lds.append(y)
glists.append(glist)
简单分析
分析多个文件的目标是找出与特定条件(如疾病)相关的基因。例如,假设Bob患有某种基因疾病,而Alice和Fred没有,且该疾病由某个基因的存在引起。通过三次测试(Bob:Alice、Fred:Bob、Fred:Alice),若测试成功,该基因应在前两个文件中差异表达,而在第三个文件中无差异表达。
对于寻找在女性中表达而在男性中不表达的基因,我们使用了包含参与者性别信息的NLM数据,如下表所示:
| File ID | 标识 |
| ---- | ---- |
| GSM151667 | F51 M58 |
| GSM151668 | M
超级会员免费看
订阅专栏 解锁全文
8

被折叠的 条评论
为什么被折叠?



