揭秘基因表达热图绘制全过程：从原始数据到发表级图像的可视化实战

原创于 2025-12-13 12:10:54 发布 · 940 阅读

26 ·

CC 4.0 BY-SA版权

第一章：基因表达热图的可视化概述

基因表达热图是一种广泛应用于转录组数据分析中的可视化手段，能够直观展示多个样本中成百上千个基因的表达水平变化。通过颜色梯度映射数值大小，研究人员可以快速识别出基因表达模式的聚类关系、差异表达趋势以及潜在的功能关联。

热图的核心组成要素

行（Rows）：通常代表基因或转录本
列（Columns）：对应不同的样本或实验条件
颜色映射：高表达常用红色表示，低表达则用蓝色表示
聚类信息：可通过层次聚类揭示基因或样本间的相似性

常用可视化工具与代码示例

在 R 语言中，heatmap.2 和 pheatmap 是生成高质量热图的常用函数。以下是一个使用 pheatmap 的基本示例：


# 加载必要库
library(pheatmap)

# 假设 gene_expression 是一个基因表达矩阵（行：基因，列：样本）
# 数据标准化处理
scaled_expr <- scale(gene_expression)

# 生成热图
pheatmap(scaled_expr,
         color = colorRampPalette(c("blue", "white", "red"))(100),
         scale = "row",
         clustering_distance_rows = "euclidean",
         clustering_distance_cols = "euclidean",
         show_rownames = FALSE,
         main = "Gene Expression Heatmap")

上述代码首先对基因表达数据按行进行标准化，使不同基因的表达模式可比；随后基于欧氏距离进行行列聚类，并使用红-白-蓝渐变色板呈现表达水平。

热图在生物信息学中的典型应用场景

应用场景	说明
差异表达分析	展示显著上调或下调的基因在各组样本中的分布
功能富集结果可视化	结合 GO 或 KEGG 分析结果，突出关键通路相关基因
时间序列或剂量响应研究	揭示基因表达随时间或处理强度的动态变化

第二章：数据预处理与质量控制

2.1 原始表达矩阵的读取与标准化

在单细胞RNA测序分析中，原始表达矩阵是下游分析的基础。该矩阵通常以基因为行、细胞为列，记录每个基因在每个细胞中的表达量。

数据读取

常用工具如scanpy可高效加载稀疏矩阵格式（如.h5ad或.mtx）：


import scanpy as sc
adata = sc.read_h5ad("data.h5ad")

此代码加载预处理后的AnnData对象，包含表达矩阵、基因和细胞元数据。

标准化策略

为消除测序深度差异，采用每万个计数（CPM）标准化：

将每个细胞的表达值归一化至总和为10,000
对低表达基因引入log(1+x)变换以稳定方差


sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)

该流程确保不同样本间的表达量具有可比性，为后续批次校正和聚类提供可靠输入。

2.2 样本与基因的过滤策略及实现

在高通量测序数据分析中，样本与基因的过滤是保障下游分析可靠性的关键步骤。为剔除低质量数据和无显著表达的基因，需制定系统性过滤策略。

样本过滤标准

样本通常依据测序深度、基因检出数和临床信息完整性进行筛选。剔除测序读数低于100万或检出基因数少于5,000的样本，可有效降低技术噪声影响。

基因表达过滤

对于基因，采用表达阈值过滤低丰度基因。常见策略要求基因在至少20%样本中每百万计数（CPM）大于1。


# 基于edgeR的CPM过滤示例
cpm_threshold <- cpm(count_matrix) > 1
keep_genes <- rowSums(cpm_threshold) >= 0.2 * ncol(count_matrix)
filtered_counts <- count_matrix[keep_genes, ]

上述代码计算每个基因的CPM值，并保留至少在20%样本中表达高于1的基因，有效减少冗余特征维度。

2.3 批次效应识别与校正方法

在高通量数据分析中，批次效应是影响结果一致性的关键干扰因素。为有效识别并校正此类系统性偏差，需结合统计方法与算法模型进行多维度处理。

常见识别策略

通过主成分分析（PCA）可视化样本分布，可初步判断是否存在批次聚集现象。此外，使用箱线图对比不同批次间的基因表达分布也有助于发现偏移。

校正算法实现


library(limma)
design <- model.matrix(~condition, data = pheno)
vfit <- voom(expr_data, design)
cfit <- combat(vfit, batch=batch, mod=design)

上述代码调用 `limma` 包中的 `combat` 函数，基于经验贝叶斯框架对表达矩阵进行校正。其中 `batch` 参数指定批次变量，`mod` 保留实验设计信息以避免混淆。

ComBat：适用于大规模转录组数据，能有效保留生物变异
Surrogate Variable Analysis (SVA)：用于捕捉隐式批次来源
Harmony：专为单细胞数据设计，支持高维嵌入空间校正

2.4 数据变换与聚类前的降维分析

在进行聚类分析前，高维数据常带来“维度灾难”问题，导致计算复杂度上升和距离度量失效。为此，需先对数据进行变换与降维处理。

标准化与归一化

数值型特征通常具有不同量纲，需统一尺度。常用Z-score标准化：

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

该方法将均值化为0、方差为1，提升后续算法稳定性。

主成分分析（PCA）降维

PCA通过线性变换将原始高维特征投影到低维主成分空间，保留最大方差信息。

from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

参数`n_components=2`表示降至二维便于可视化，同时可通过`explained_variance_ratio_`评估信息保留比例，通常累计贡献率应超过85%。

降维方法	适用场景	优点
PCA	线性结构数据	计算高效，解释性强
t-SNE	非线性聚类可视化	保留局部结构

2.5 质量评估图（PCA、样本相关性）绘制

主成分分析（PCA）可视化

PCA 图是高通量数据质量评估的关键工具，用于揭示样本间的整体表达模式和潜在批次效应。通过降维，可将多维基因表达数据映射到前两个主成分上，直观展示样本聚类情况。


library(ggplot2)
pca_data <- prcomp(t(expr_matrix), scale = TRUE)
df_pca <- data.frame(
  PC1 = pca_data$x[,1],
  PC2 = pca_data$x[,2],
  Group = sample_info$group
)
ggplot(df_pca, aes(x=PC1, y=PC2, color=Group)) + 
  geom_point(size=3) + 
  labs(title="PCA Plot", x=paste0("PC1 (", round(summary(pca_data)$importance[2,1]*100, 2), "%)"))

该代码首先对转录组数据进行标准化主成分分析，提取前两个主成分，并结合分组信息绘图。PC1 和 PC2 的解释方差比例标注于坐标轴，反映其信息贡献度。

样本间相关性热图

计算样本间皮尔逊相关系数，可评估技术重复的一致性与生物重复的稳定性。

Sample	Rep1	Rep2	Rep3
Rep1	1.00	0.98	0.91
Rep2	0.98	1.00	0.93
Rep3	0.91	0.93	1.00

第三章：热图绘制核心原理与工具选择

3.1 层次聚类与距离度量的生物学意义

在生物信息学中，层次聚类被广泛用于基因表达数据的模式识别。通过构建树状图（ dendrogram ），可以揭示样本或基因之间的潜在层级关系。

常用距离度量方法

欧氏距离：衡量数值间的绝对差异，适用于连续表达值
皮尔逊相关系数：反映表达趋势的一致性，常用于基因共表达网络
杰卡德距离：处理二元特征，如基因存在/缺失矩阵

代码示例：计算表达谱距离


# 计算基因表达矩阵的皮尔逊距离
data_matrix <- as.matrix(read.csv("expression_data.csv", row.names=1))
distance <- as.dist(1 - cor(data_matrix, method = "pearson"))
hc <- hclust(distance, method = "complete")
plot(hc, main = "Gene Expression Clustering")

上述代码首先读取表达数据并转换为矩阵，利用皮尔逊相关性构建距离矩阵，最后采用完全连接法执行层次聚类，可视化基因间的调控相似性。

图表：树状图与热图联合展示基因聚类模式

3.2 热图颜色映射与表达模式解读

颜色映射原理

热图通过颜色梯度反映数据强度，常用于基因表达、用户行为等矩阵数据的可视化。颜色映射（colormap）将数值连续映射到色彩空间，如从蓝色（低值）经白色过渡到红色（高值）。

常用颜色方案

viridis：感知均匀，适合色盲读者
coolwarm：对称发散型，突出正负差异
Blues：单色系，适用于单一维度增强

代码实现示例

import seaborn as sns
sns.heatmap(data, cmap='coolwarm', center=0, annot=True)

该代码使用 Seaborn 绘制热图：cmap='coolwarm' 设置发散色板，center=0 指定中性值居中，annot=True 在单元格内显示数值，增强可读性。

表达模式识别

图表含义：行与列聚类后形成模块化色块，同类样本聚集显示相似表达模式，可用于发现基因功能群或用户行为簇。

3.3 主流R/Python绘图包功能对比（pheatmap vs seaborn）

核心功能与生态定位

pheatmap 是 R 语言中专为层次聚类热图设计的包，强调生物学数据分析场景下的默认美观与聚类整合；seaborn 则是 Python 中基于 matplotlib 的高级可视化库，提供简洁接口绘制统计图形，热图仅为其功能子集。

代码实现对比

# R: pheatmap 示例
pheatmap(data, scale = "row", clustering_distance_rows = "euclidean",
         show_rownames = FALSE, annotation_col = annot)

上述 R 代码自动集成行标准化、欧氏距离聚类与列向注释展示。pheatmap 对生物信息学工作流高度适配，参数语义明确。

# Python: seaborn 示例
import seaborn as sns
sns.clustermap(data, standard_scale=0, metric="euclidean",
               xticklabels=False, col_colors=annot)

seaborn 使用 clustermap 实现类似效果，standard_scale 沿特征维度标准化，col_colors 支持外部注释着色，接口更灵活但需依赖 pandas 和 scipy 配合。

功能特性对照

特性	pheatmap (R)	seaborn (Python)
默认聚类	内置层次聚类	依赖 scipy
扩展性	适配 ggplot 生态有限	无缝集成 matplotlib
学习曲线	领域专用易上手	通用但需基础

第四章：高级定制化热图生成实战

4.1 添加样本注释条带与分组信息

在可视化分析中，添加样本注释条带能够有效增强图表的信息表达能力。通过引入分组信息，可对样本进行逻辑划分，便于后续差异分析。

注释数据结构设计

使用表格形式组织样本分组信息：

SampleID	Group	Tissue
S1	A	Lung
S2	B	Lung

代码实现示例


library(pheatmap)
annotation <- data.frame(
  Group = factor(rep(c("A", "B"), each = 5)),
  Tissue = "Lung"
)
pheatmap(mat, annotation_col = annotation)

上述代码中，annotation_col 参数传入样本注释信息，factor 确保分类变量正确渲染。生成的热图将显示颜色条带，直观反映样本分组结构，提升结果可读性。

4.2 调整聚类结构与固定基因排序

在高维基因表达数据分析中，聚类结构的优化对可视化结果具有显著影响。通过调整距离度量与链接策略，可提升簇间分离度。

动态调整聚类树结构

采用层次聚类时，可通过剪枝控制簇数量：

hc <- hclust(dist(data), method = "ward.D2")
clusters <- cutree(hc, k = 5)

该代码使用 Ward 方法最小化簇内方差，cutree 函数将树状图切割为指定数量的簇，适用于探索性分析。

固定基因顺序以增强可比性

为保持多次绘图间的一致性，需固定基因排序：

基于生物学先验知识预设排序
使用首次聚类结果保存的顺序作为后续输入
通过 reorder 函数锁定叶节点位置

此策略确保跨样本比较时热图模式稳定，避免因排列波动导致误判。

4.3 多面板整合：差异分析结果叠加展示

在复杂系统监控中，将多个分析面板的结果进行可视化叠加，有助于快速识别异常模式。通过统一坐标轴与时间基准，实现多源数据的空间对齐。

数据同步机制

关键在于时间戳对齐和采样频率归一化。使用如下代码进行预处理：


# 对齐不同面板的时间序列数据
def align_time_series(data_a, data_b, freq='1s'):
    merged = pd.merge_asof(
        data_a.sort_values('timestamp'),
        data_b.sort_values('timestamp'),
        on='timestamp',
        tolerance=pd.Timedelta(freq),
        direction='nearest'
    )
    return merged.dropna()

该函数利用 `pd.merge_asof` 实现近似时间匹配，确保来自不同面板的指标可在同一时间粒度下对比分析。

可视化层叠策略

采用透明度调节（alpha值）区分图层优先级：

背景层：低活跃度指标，alpha=0.3
中间层：主业务流数据，alpha=0.6
前景层：告警事件标记，alpha=1.0

4.4 输出高分辨率发表级图像（PDF/PNG/TIFF）

在科研可视化中，输出高质量图像至关重要。支持多种格式的导出能适应期刊的不同要求。

常用图像格式对比

格式	优势	适用场景
PDF	矢量无损，文本可编辑	LaTeX 论文插图
TIFF	高色深，支持透明通道	印刷出版
PNG	无损压缩，网页友好	在线展示与演示

Matplotlib 高分辨率输出示例

import matplotlib.pyplot as plt
plt.figure(figsize=(8, 6), dpi=300)
plt.plot([1,2,3], [4,5,1])
plt.savefig('figure.pdf', format='pdf', bbox_inches='tight')
plt.savefig('figure.tiff', format='tiff', dpi=600, pil_kwargs={"compression": "tiff_lzw"})

上述代码设置图形分辨率为300 DPI，并分别导出为PDF和TIFF格式。PDF保留矢量特性，TIFF采用LZW压缩以减小体积且无损。参数 dpi 控制像素密度，bbox_inches='tight' 消除多余边距，确保排版整洁。

第五章：从可视化到科学发现的跃迁

数据洞察驱动科研范式变革

现代科学研究中，可视化已不仅是展示工具，更成为发现新规律的关键路径。在天体物理学领域，科学家利用三维密度图识别出暗物质分布的非均匀性，这一发现源于对星系红移数据的交互式渲染。通过 Python 中的 Matplotlib 与 Plotly 结合，研究人员构建了动态可视分析流水线：


import plotly.graph_objects as go
import numpy as np

# 模拟宇宙大尺度结构中的星系坐标
x, y, z = np.random.normal(0, 1, (3, 10000))
fig = go.Figure(data=go.Scatter3d(x=x, y=y, z=z, mode='markers',
                                  marker=dict(size=2, color=z, colorscale='Viridis')))
fig.show()  # 实时探索空间聚类模式