胰腺癌与多亚型肿瘤基因研究:数据挖掘与选择新方法
1. 胰腺癌相关基因研究
1.1 相关工作概述
基因表达分析在肿瘤研究中至关重要,关联规则挖掘是常用的数据挖掘技术,用于识别共表达基因。此前已有研究利用该技术从人类SAGE数据中识别协同表达组。不同学者将关联规则挖掘应用于不同数据集,如从酵母数据集找基因关联、从微阵列数据提取基因关联,还有研究将其用于关联基序与基因表达。不过,传统关联规则挖掘算法不适用于基因表达数据库,因其结构与传统数据库相反,基因表达数据库有大量项目(基因)和少量事务(组织样本),为此也开发了专门算法。
疾病组织中差异表达基因的识别也是研究领域,这些基因被称为标记基因,可通过基因表达谱分析实现,SAGE技术是基因表达谱分析的有力工具,已用于多种癌症标记基因的识别,也有研究用SAGE数据识别胰腺癌的特征基因。此外,识别差异共表达基因也是相关研究方向,其基于癌症相关基因在正常和癌症组织中可能形成不同基因 - 基因共表达模式的概念,可用于识别癌症标记基因。
1.2 数据挖掘方法
1.2.1 数据选择
基因表达谱技术分为基于杂交的技术(如DNA微阵列)和基于测序的方法(如SAGE)。本研究选择了SAGE数据,从癌症基因组解剖项目网站下载,包含六个胰腺癌SAGE文库和两个正常胰腺文库,文库为文本文件,每个文件包含一组标签(代表基因)及其对应计数(表示表达水平),各文库记录数量如下表:
| 文库名称 | 记录数量 |
| — | — |
| CL_PL45 | 11121 |
| CL_ASPC | 10622 |
| B_96_6252 | 14339
胰腺癌与多亚型肿瘤基因分析新法
超级会员免费看
订阅专栏 解锁全文
1026

被折叠的 条评论
为什么被折叠?



