生物信息学实操指南

22、为什么单热聚类更适合非负矩阵分解(NMF)而不是iCluster?

单热聚类假设每个样本由一个成分驱动,根据影响样本最大的潜在变量为样本分配聚类标签。而iCluster产生的潜在变量可能为负,且呈多元高斯形状,难以挑选出一个“主导因素”,所以单热聚类不太适用于iCluster,更适合NMF。

23、尝试使用计数表中的所有基因来制作热图,而不是进行子选择。请说明具体操作步骤。

一般来说,可按以下通用思路操作:

  1. 首先,确保计数表数据格式正确,通常为矩阵形式,行代表基因,列代表样本。
  2. 然后,选择合适的编程语言和工具,如 Python 的 seaborn 库或 R 语言的 pheatmap 包。
  3. 接着,读取计数表数据,对数据进行必要的预处理,如归一化等。
  4. 最后,使用相应工具的热图绘制函数,将计数表数据传入函数进行热图绘制。

24、使用 R 语言模拟生成数据,用 data=matrix(rnorm(6000, mean = 200, sd = 70), ncol = 6) ,使用 sd() 函数计算均值分布的标准差。将其与根据中心极限定理得到的预期标准误差进行比较,要记住总体参数为 σ = 70,n = 6。如果模拟更多数据,随机样本的估计值会如何变化?[难度:初级/中级]

可按以下步骤解决:

  1. 首先,使用 sd() 函数计算均值分布的标准差;
  2. 接着,根据中心极限定理公式(标准误差 = σ / √n )计算预期标准误差并与前者比较;
  3. 最后,用 data=matrix(rnorm(6000, mean = 200, sd = 70), ncol = 6) 模拟更多数据,重复上述计算过程,观察随机样本估计值的变化,通常样本量增加会使估计更接近总体参数。

25、对pois1使用均值的自助置信区间。[难度:中级/高级]

在实际操作中,对样本使用自助法构建置信区间的步骤如下:

  1. 模拟样本;
  2. 进行有放回的自助重采样,多次重复计算样本均值;
  3. 计算重采样均值分布的 2.5% 和 97.5% 分位数,得到 95% 置信区间。

若使用 R 语言,代码示例如下:

library(mosaic)
set.seed(某随机种子值)
boot.means = do(1000) * mean(resample(pois1))
q = quantile(boot.means[,1], p = c(0.025, 0.975))

其中 q 即为所求的 95% 置信区间边界值。

26、本次练习需要一个额外的数据集。按以下方式读取基因表达数据集:gexpFile=system.file(“extdata”,”geneExpMat.rds”,package=”compGenomRData”); data=readRDS(gexpFile)。该数据有100个差异表达基因。前3列是测试样本,后3列是对照样本。对每个基因(每行代表一个基因)进行t检验,并记录p值。然后,进行适度t检验,并记录p值。制作p值直方图,并根据0.05的阈值比较两种方法的显著检验数量。对p值使用FDR(BH)、Bonferroni和q值调整方法。计算每种方法中有多少调整后的p值低于0.05。[难度:中级/高级]

可按照以下步骤操作:

  1. 按给定代码读取数据集;
  2. 对每个基因进行t检验并记录p值;
  3. 进行适度t检验并记录p值;
  4. 制作p值直方图;
  5. 用FDR(BH)、Bonferroni和q值调整方法调整p值;
  6. 统计每种调整方法中低于0.05的p值数量。

27、绘制散点图和拟合线。[难度:中级]

可按以下通用步骤操作:

  1. 准备数据;
  2. 使用绘图函数(如R中的 plot() )绘制散点图;
  3. 拟合线性模型(如R中的 lm() );
  4. 提取拟合线信息并绘制拟合线(如R中用 abline() )。

28、运行summary()函数,并尝试从summary返回的对象中提取模型的P值。查看?summary.lm。[难度:中级/高级]

一般在 R 中运行 summary(lm_model) 后,可通过特定代码从返回对象中提取 P 值,如:

summary(lm_model)$coefficients[,4]

(假设 lm_model 是线性模型对象)

29、绘制 H3K27me3 与基因表达量的散点图。[难度:初级]

首先读取组蛋白修饰数据集,获取文件路径代码为:

```r
hmodFile = system.file("extdata", "HistoneModeVSgeneExp.rds", package = "compGenomRData")

数据集有三列,分别为 H3K4me3 H3K27me3 的测量水平和每个基因的基因表达量。读取数据后绘制 H3K27me3 与基因表达量的散点图,可使用 R 语言的 plot() 函数进行绘制,假设读取的数据存储在变量 data 中,代码示例为:

plot(data$H3K27me3, da
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值