22、为什么单热聚类更适合非负矩阵分解(NMF)而不是iCluster?
单热聚类假设每个样本由一个成分驱动,根据影响样本最大的潜在变量为样本分配聚类标签。而iCluster产生的潜在变量可能为负,且呈多元高斯形状,难以挑选出一个“主导因素”,所以单热聚类不太适用于iCluster,更适合NMF。
23、尝试使用计数表中的所有基因来制作热图,而不是进行子选择。请说明具体操作步骤。
一般来说,可按以下通用思路操作:
- 首先,确保计数表数据格式正确,通常为矩阵形式,行代表基因,列代表样本。
- 然后,选择合适的编程语言和工具,如 Python 的 seaborn 库或 R 语言的 pheatmap 包。
- 接着,读取计数表数据,对数据进行必要的预处理,如归一化等。
- 最后,使用相应工具的热图绘制函数,将计数表数据传入函数进行热图绘制。
24、使用 R 语言模拟生成数据,用 data=matrix(rnorm(6000, mean = 200, sd = 70), ncol = 6) ,使用 sd() 函数计算均值分布的标准差。将其与根据中心极限定理得到的预期标准误差进行比较,要记住总体参数为 σ = 70,n = 6。如果模拟更多数据,随机样本的估计值会如何变化?[难度:初级/中级]
可按以下步骤解决:
- 首先,使用
sd()函数计算均值分布的标准差; - 接着,根据中心极限定理公式(标准误差 = σ / √n )计算预期标准误差并与前者比较;
- 最后,用
data=matrix(rnorm(6000, mean = 200, sd = 70), ncol = 6)模拟更多数据,重复上述计算过程,观察随机样本估计值的变化,通常样本量增加会使估计更接近总体参数。
25、对pois1使用均值的自助置信区间。[难度:中级/高级]
在实际操作中,对样本使用自助法构建置信区间的步骤如下:
- 模拟样本;
- 进行有放回的自助重采样,多次重复计算样本均值;
- 计算重采样均值分布的 2.5% 和 97.5% 分位数,得到 95% 置信区间。
若使用 R 语言,代码示例如下:
library(mosaic)
set.seed(某随机种子值)
boot.means = do(1000) * mean(resample(pois1))
q = quantile(boot.means[,1], p = c(0.025, 0.975))
其中 q 即为所求的 95% 置信区间边界值。
26、本次练习需要一个额外的数据集。按以下方式读取基因表达数据集:gexpFile=system.file(“extdata”,”geneExpMat.rds”,package=”compGenomRData”); data=readRDS(gexpFile)。该数据有100个差异表达基因。前3列是测试样本,后3列是对照样本。对每个基因(每行代表一个基因)进行t检验,并记录p值。然后,进行适度t检验,并记录p值。制作p值直方图,并根据0.05的阈值比较两种方法的显著检验数量。对p值使用FDR(BH)、Bonferroni和q值调整方法。计算每种方法中有多少调整后的p值低于0.05。[难度:中级/高级]
可按照以下步骤操作:
- 按给定代码读取数据集;
- 对每个基因进行t检验并记录p值;
- 进行适度t检验并记录p值;
- 制作p值直方图;
- 用FDR(BH)、Bonferroni和q值调整方法调整p值;
- 统计每种调整方法中低于0.05的p值数量。
27、绘制散点图和拟合线。[难度:中级]
可按以下通用步骤操作:
- 准备数据;
- 使用绘图函数(如R中的
plot())绘制散点图; - 拟合线性模型(如R中的
lm()); - 提取拟合线信息并绘制拟合线(如R中用
abline())。
28、运行summary()函数,并尝试从summary返回的对象中提取模型的P值。查看?summary.lm。[难度:中级/高级]
一般在 R 中运行 summary(lm_model) 后,可通过特定代码从返回对象中提取 P 值,如:
summary(lm_model)$coefficients[,4]
(假设 lm_model 是线性模型对象)
29、绘制 H3K27me3 与基因表达量的散点图。[难度:初级]
首先读取组蛋白修饰数据集,获取文件路径代码为:
```r
hmodFile = system.file("extdata", "HistoneModeVSgeneExp.rds", package = "compGenomRData")
数据集有三列,分别为 H3K4me3 、 H3K27me3 的测量水平和每个基因的基因表达量。读取数据后绘制 H3K27me3 与基因表达量的散点图,可使用 R 语言的 plot() 函数进行绘制,假设读取的数据存储在变量 data 中,代码示例为:
plot(data$H3K27me3, da

最低0.47元/天 解锁文章
740

被折叠的 条评论
为什么被折叠?



