结合突变信息的正则化逻辑回归用于肺癌诊断及固体火箭发动机喷管机电推力矢量控制系统研究
在癌症诊断领域,基因数据的分析和利用至关重要。RNA - seq数据具有数据量大、基因组覆盖广、不受物种基因组是否已知限制以及灵活性高等特点,已广泛应用于癌症诊断。然而,传统方法在处理大规模RNA - seq数据进行基因筛选时存在一些问题,如需要大量样本、无法检测新基因以及灵敏度低等。
肺癌诊断问题的提出
对于肺癌腺癌的RNA - seq数据,用((x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n))表示,其中(x_i = (x_{i1}, x_{i2}, \cdots, x_{ip}))代表第(i)个样本中(p)个基因的表达值,(y_i = 1)表示第(i)个样本来自癌症患者,否则(y_i = 0)。为预测新患者样本的标签,构建决策函数:
(D(x) = \begin{cases} 1, & d(x) \geq \theta \ 0, & d(x) < \theta \end{cases})
其中(d(x) = \beta^T x + \beta_0)是线性判别函数,(\theta)通常根据对数概率意义选为(0.5)。
肺癌腺癌的RNA - seq数据可从美国国立生物技术信息中心(NCBI)下载,数据包含36684个基因和164个样本。经过去除重复基因和零行等处理,得到20926个基因。取对数后进行差异表达分析,在(\vert\log FC\vert \geq 1)且(p - value < 0.05)的条件下筛选出1308个差异表达基因。
超级会员免费看
订阅专栏 解锁全文
677

被折叠的 条评论
为什么被折叠?



