基于张量分解的基因 - 样本 - 时间微阵列数据分类方法
1. 引言
DNA 微阵列技术能够并行监测数千个基因,极大地加速了分子生物学实验,并提供了大量数据,可用于发现共调控基因、基因功能、遗传网络和标记基因等。微阵列数据主要有两种类型:
- 基因 - 样本数据集:汇总了一组生物样本中各种基因的表达水平。
- 基因 - 时间数据集:记录了一系列时间点上各种基因的表达水平。
这两种类型的数据都由二维(2D)基因表达矩阵表示,其中基因对应矩阵的行,每个矩阵元素包含某个样本或特定时间点上给定基因的表达水平。基因 - 样本数据是静态数据,常用于临床研究;基因 - 时间数据是动态数据,通常用于研究基因调控。由于基因调控和表达在时间上存在差异,仅使用静态数据可能会导致一些错误发现。
近年来,医学研究开始监测生物样本在一系列时间点上的基因表达水平,形成了三维(3D)的基因 - 样本 - 时间(GST)微阵列数据。GST 数据可以看作是一系列时间点上的基因 - 样本数据集合,或者是一些样本上的基因 - 时间数据集合。GST 数据可用于更精确地诊断疾病、监测药物治疗反应、确定基因或样本模式以及寻找调控途径等。然而,GST 数据的分析面临诸多问题,如基因或样本在某些时间点可能存在缺失值,测量过程可能引入噪声,且大量基因的表达是从少量样本和少量时间点测量得到的。与二维微阵列不同,GST 阵列中的基因或样本是矩阵而非向量,因此需要特殊的分析方法。
在多线性代数中,d 阶张量是 d 维数组,张量代数是向量和矩阵代数向 d 阶张量的扩展。GST 微阵列数据自然是 3 阶张量,因此可以直接利用张量代数的理论和操作来分析这些数据,而不是对其矩阵化表示进行矩阵操作。本文首次
超级会员免费看
订阅专栏 解锁全文
1913

被折叠的 条评论
为什么被折叠?



