31、基于张量分解的基因 - 样本 - 时间微阵列数据分类方法

fire9

于 2025-10-22 09:44:00 发布

阅读量22

点赞数

CC 4.0 BY-SA版权

分类专栏：生物信息学前沿探秘文章标签：张量分解基因-样本-时间数据 DNA微阵列

本文链接：https://blog.youkuaiyun.com/fire9/article/details/153723111

生物信息学前沿探秘专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于张量分解的基因 - 样本 - 时间微阵列数据分类方法

1. 引言

DNA 微阵列技术能够并行监测数千个基因，极大地加速了分子生物学实验，并提供了大量数据，可用于发现共调控基因、基因功能、遗传网络和标记基因等。微阵列数据主要有两种类型：
- 基因 - 样本数据集：汇总了一组生物样本中各种基因的表达水平。
- 基因 - 时间数据集：记录了一系列时间点上各种基因的表达水平。

这两种类型的数据都由二维（2D）基因表达矩阵表示，其中基因对应矩阵的行，每个矩阵元素包含某个样本或特定时间点上给定基因的表达水平。基因 - 样本数据是静态数据，常用于临床研究；基因 - 时间数据是动态数据，通常用于研究基因调控。由于基因调控和表达在时间上存在差异，仅使用静态数据可能会导致一些错误发现。

近年来，医学研究开始监测生物样本在一系列时间点上的基因表达水平，形成了三维（3D）的基因 - 样本 - 时间（GST）微阵列数据。GST 数据可以看作是一系列时间点上的基因 - 样本数据集合，或者是一些样本上的基因 - 时间数据集合。GST 数据可用于更精确地诊断疾病、监测药物治疗反应、确定基因或样本模式以及寻找调控途径等。然而，GST 数据的分析面临诸多问题，如基因或样本在某些时间点可能存在缺失值，测量过程可能引入噪声，且大量基因的表达是从少量样本和少量时间点测量得到的。与二维微阵列不同，GST 阵列中的基因或样本是矩阵而非向量，因此需要特殊的分析方法。

在多线性代数中，d 阶张量是 d 维数组，张量代数是向量和矩阵代数向 d 阶张量的扩展。GST 微阵列数据自然是 3 阶张量，因此可以直接利用张量代数的理论和操作来分析这些数据，而不是对其矩阵化表示进行矩阵操作。本文首次