手把手教你如何进行代谢组学数据挖掘

代谢组学项目完成后,面对结题报告中繁杂的数据信息,您是否面临以下挑战:如何高效提取具有生物学意义的关键信息?如何精准锁定与研究假设高度关联的代谢标志物?如何以更全面、直观的方式呈现分析结果?针对上述问题,本期伯小医系统梳理了数据挖掘策略,助力您实现代谢组学数据的深度解析与可视化转化,让你轻松驾驭代谢组学数据。

0代谢物种类统计

样本中代谢物的组成具有特异性,不同组别或不同处理条件下的样本包含的代谢物类别构成及比例不同。通过对样本代谢物组成比例进行系统分析,有助于研究者快速了解样本中的主要代谢物分布情况。该分析结果通常可作为代谢组学研究的开篇概述,或作为补充材料附于文后,其中高占比的物质类别可以重点关注或描述。在可视化方面,常采用环形图或饼图直观呈现各代谢物类别分布情况。

image.png

图1 代谢物类别组成环形图。

02 差异代谢物的挖掘:筛选与分析

拿到代谢组学分析结果后,最重要的一步是需要关注哪些代谢物在不同组样本中显著差异表达,这些代谢物是导致不同组样本表型差异的关键候选因子,多放在文章正文直观展示关键数据。在差异分析时往往需结合多元统计和单变量分析,可以根据VIP值(Variable Importance in Projection,通常来自OPLS-DA模型)、FC值(Fold Change,差异倍数)和P值(来自T检验等统计方法)等筛选差异显著程度较高的代谢物,并结合自己感兴趣的物质来综合筛选。筛选标准一般为VIP≥1,P value≤0.05,FC≥2或FC≤1/2,如果用该筛选标准得到的差异代谢物过多或过少,可以通过调整参数进行重新分析。在可视化方面,常采用差异代谢物条形图和差异代谢物火山图直观呈现。

01 差异代谢物条形图

差异代谢物条形图直观展示了不同代谢物的相对变化程度。差异代谢物条形图中横坐标为差异代谢物的log2FC,纵坐标为差异代谢物,红色代表代谢物含量上调,蓝色代表代谢物含量下调,条形的长度直观体现了变化倍数的大小。

image.png

图2 差异代谢物条形图。

02 差异代谢物火山图

通过火山图可以直观地看到哪些代谢物在组间发生了显著变化和变化趋势。火山图中的每一个点表示一种代谢物,其中蓝色的点代表下调差异代谢物,红色的点代表上调差异代谢物,灰色的点代表检测到但差异不显著的代谢物。横坐标为log2FC,绝对值越大,表示该代谢物在两组样品间的表达量倍数差异越大。纵坐标为-log10(P value),数值越高,表明差异表达越显著,筛选得到的差异表达代谢物越可靠。可依据图中差异代谢物的总数,优先关注上、下调最显著的前50%差异代谢物,系统检索其生物学功能,并结合研究目标对关键候选物进行后续实验验证。

image.png

图3 差异代谢物火山图。

03 差异代谢物相关性的挖掘

锁定差异代谢物后,可进一步解析其与其他代谢物的互作关系。可视化层面,通常借助差异代谢物相关性热图、和弦图及网络图三种形式,系统、直观地呈现代谢物间的关联强度与拓扑特征。通过相关性分析,识别与目标差异代谢物显著相关的其他代谢物,并结合其它数据库、文献等逐一解析其生物学功能,对与研究目标密切相关的候选代谢物开展后续实验验证。

01 差异代谢物相关性热图

差异代谢物相关性热图通过计算差异代谢物两两之间的皮尔逊相关系数来分析各个代谢物间的相关性。横向、纵向都为差异代谢物名称,不同颜色为皮尔逊相关系数r高低,红色表示正相关性,蓝色表示负相关性,颜色越深相关性越高。

image.png

图4 差异代谢相关性热图。

02 差异代谢物的相关性和弦图

和弦图可让两个代谢组物之间的相互关系可视化。图中最外层为差异代谢物名称,点的大小代表对应差异代谢物的log2FC值的大小,不同分类的差异代谢物用不同颜色表示;红色线条代表正相关,蓝色线条代表负相关,颜色越深相关性越高。

image.png

图5 差异代谢物的相关性和弦图。

03 差异代谢物相关性网络图

差异代谢物相关性网络图则进一步揭示了代谢物之间的相关性,帮助我们理解代谢网络中的调控机制。图中点代表不同的差异代谢物,点的大小代表连接度,点越大代表连接相邻点个数越多。红色线条代表正相关,蓝色线条代表负相关。线条的粗细代表皮尔逊相关系数r的绝对值的大小,线条越粗,|r|越大。在差异代谢物相关性网络图中连接线数量最多的代谢物,往往处于调控网络的核心位置,可作为潜在的关键调控代谢物重点研究。

image.png

图6 差异代谢物相关性网络图。

04 与表型变化趋势相同/相反的代谢物挖掘

探究差异代谢物在不同样本群体中的表达模式。可视化层面,通常借助差异代谢物聚类热图、差异代谢物K-Means图,系统、直观地呈现代谢物间的表达趋势。通过差异代谢物聚类热图和K-Means图分析,可以将代谢物根据其表达趋势分组,并进一步注释至相关代谢通路,从而揭示表型变化所关联的关键代谢途径。

01 差异代谢物聚类热图

差异代谢物聚类热图同时展示代谢物表达模式,并对代谢物和/或样本进行无监督聚类。图中横坐标为样品信息,纵坐标为代谢物信息,代谢物相对含量标准化处理后得到的数值用不同颜色区分,含量越高颜色越红,含量越低颜色越蓝,Group为分组。

image.png

图7 差异代谢物聚类热图。

02 差异代谢物 K-Means 图

K-Means分析可直观反映代谢物在不同分组中的相对含量变化趋势,可识别出具有相同动态变化模式的代谢物群体。K-Means分析图中横坐标为样品名称,纵坐标为标准化的代谢物相对含量,Cluster表示变化趋势相同的代谢物类别编号,数字表示该类别的代谢物的总数目。

image.png

图8 差异代谢物K-Means图。

05 与表型变化显著相关的通路挖掘

找到差异代谢物后,最终需要阐释其生物学功能。KEGG数据库把基因、表达信息以及代谢物含量作为一个整体网络进行研究,通过KEGG通路分析可以了解代谢物如何在生物学背景下发挥作用。可视化方面,主要借助差异代谢物通路分类图和差异代谢物富集气泡图,可识别出与特定表型变化显著相关的代谢通路,并进一步探索这些通路与其他通路之间的联系。

01 差异代谢物通路分类图

通过差异代谢物通路分类图可以知道差异代谢物主要富集在哪些已知的代谢通路上,并显示各通路所包含的差异代谢物数量。差异代谢物通路分类图中纵坐标为KEGG代谢通路的名称,横坐标为注释到该通路下的差异代谢物个数。

image.png

图9 差异代谢物通路分类图。

02 差异代谢物富集气泡图

差异代谢物富集气泡图可展现差异代谢物与哪些生物学功能显著相关。横坐标为富集到的差异代谢物的个数多少,纵坐标为通路名称,点的颜色反映P-value大小,越红表示富集越显著。

image.png

图10 差异代谢物富集气泡图。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值