FriendsDontLetFriends项目：热图行列重排序技术详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00783/article/details/148465778

FriendsDontLetFriends项目：热图行列重排序技术详解

FriendsDontLetFriends Friends don't let friends make certain types of data visualization - What are they and why are they bad. 项目地址: https://gitcode.com/gh_mirrors/fr/FriendsDontLetFriends

热图可视化的重要性

热图(Heatmap)是数据可视化中一种非常强大的工具，它通过颜色编码的方式展示矩阵数据，广泛应用于基因表达分析、市场调研、用户行为研究等多个领域。然而，一个未经优化的热图往往难以传达有效信息，行列顺序的合理安排是热图可视化的关键所在。

准备工作

在开始热图重排序之前，我们需要准备以下R语言包：

library(tidyverse)  # 数据处理和可视化核心工具
library(RColorBrewer)  # 提供专业的配色方案

数据准备

本教程使用的研究数据采用整洁数据(tidy data)格式，这是tidyverse生态系统的标准数据格式。整洁数据有三个主要特征：

每个变量构成一列
每个观察值构成一行
每种观测单位构成一个表格

在我们的数据中，包含三个关键列：

row: 表示热图的行
col: 表示热图的列
value: 用于热图颜色编码的数值

未排序热图的问题

直接绘制未经排序的热图会得到一个杂乱无章的可视化结果：

my_data %>% 
  ggplot(aes(x = col, y = row)) +
  geom_tile(aes(fill = value)) +
  scale_fill_gradientn(colors = brewer.pal(9, "YlGnBu")) +
  theme_classic()

这样的热图无法展示数据中的任何模式或规律，严重影响了数据的可解释性。

基于实际意义的单维度排序

在某些情况下，我们可以根据数据的实际意义对行列进行排序。例如：

时间序列数据按时间先后排序
实验数据按对照组和实验组分组排序
发展阶段数据按发育顺序排序

在R中，我们可以使用factor()函数指定排序顺序：

my_data %>% 
  mutate(samples = factor(samples, 
                         levels = c("control1", "control2", "treatment1", "treatment2")))

这种方法适用于维度有明确排序逻辑的场景，但对于更复杂的数据，我们需要更智能的排序方法。

程序化行列重排序技术

核心排序策略

我们采用基于统计学特征的程序化排序方法，主要考虑两个关键指标：

峰值位置(peak value): 每行数据在哪一列达到最大值
峰值数量(number of peak values): 每列中有多少行在该列达到最大值

排序算法步骤详解

计算每行的峰值位置

my_data_peak_values <- my_data %>% 
  group_by(row) %>% 
  slice_max(order_by = value, n = 1, with_ties = F) %>% 
  rename(peaked_at = col)

计算每列的峰值数量

number_of_peaks <- my_data_peak_values %>% 
  group_by(peaked_at) %>% 
  count() %>% 
  arrange(-n)  # 按峰值数量降序排列

重新排序行列

my_data_reordered <- my_data %>% 
  inner_join(number_of_peaks, by = c("col" = "peaked_at")) %>% 
  mutate(col = reorder(col, -n)) %>%  # 按峰值数量重排列
  inner_join(my_data_peak_values_reordered, by = "row") %>% 
  mutate(row = reorder(row, as.numeric(peaked_at)))  # 按峰值位置重排行