肝癌显著基因表达的识别
1. 背景
基因表达指的是编码基因形成功能性蛋白质或 RNA 的过程,主要包括转录和翻译两个阶段。在转录阶段,以 DNA 链为模板合成 RNA 链,即初级转录物,随后初级转录物会经过修饰形成成熟的 mRNA、tRNA 或功能性 rRNA。这是基因表达的初始阶段,产生的 RNA 后续会编码蛋白质,这些蛋白质还会经历剪接、多聚腺苷酸化并被转运至细胞质。
在肝癌发生机制中,众多基因或蛋白质参与其中,导致基因表达无法正常进行。例如,细胞周期的调节因子(如 Cdk4、Cyclin I、Cyclin I、D3、CIP2)增加会引发细胞不受控制地分裂,且不进行修复;同时,本应增强基因表达调控的肿瘤抑制蛋白却减少,从而诱导肿瘤细胞(恶性)的形成。
基因表达与肝癌机制的关联促使其成为本研究的数据集。肝癌患者基因表达数据,即翻译过程中 RNA 定量转化为蛋白质的数据,均来自基因库。由于使用微阵列技术(通过分离 RNA 以匹配目标样本的方式来测量基因表达)成本高昂,导致获得的数据样本非常有限。然而,筛选过程中的基因数量却极为庞大。因此,许多研究借助机器学习的计算方法展开。
大量筛选出的表达基因带来了内存限制和计算时间过长的问题。为此,许多研究采用特征选择方法来简化肝癌疾病建模数据,包括聚类、混合 SFS 和 LASSO、随机森林、动态贝叶斯网络,或运用生物信息学工具结合统计方法,以获取基因表达显著差异的信息,并将其作为特征应用于分类机器学习算法进行检测。
本研究旨在通过增益比特征选择减少肝癌机制中表达基因的特征,从而克服计算资源的限制。
2. 相关研究
许多基于基因表达数据,运用特征选择方法对肝
超级会员免费看
订阅专栏 解锁全文
38

被折叠的 条评论
为什么被折叠?



