白血病差异基因检测研究
研究背景与思路
在白血病研究中,区分急性淋巴细胞白血病(ALL)患者和急性髓系白血病(AML)患者是一个重要的课题。通过先对基因进行聚类,再从聚类中检测代表性基因的方法,能够有效检测差异基因。具体做法是,仅使用每个样本的差异基因将测试数据集的样本分组到聚类中,通过聚类性能(如准确性)来测试检测到的差异基因的识别能力。实验结果表明,这种思路是有效的,检测到的差异基因能够区分ALL患者和AML患者。
提出的方法
- DPC算法基础 :DPC算法基于这样的假设,即聚类中心点的局部密度高于其周围点的局部密度,且中心点到任何局部密度更高的点的距离相对较远。该算法定义了点的局部密度ρ和距离δ,并将所有点绘制在以密度ρ为x轴、距离δ为y轴的二维空间中,即决策图。决策图右上角远离左下角的点由于其相对较高的局部密度和距离,构成密度峰值。
- 基因的局部密度和距离定义 :受密度峰值思想的启发,为基因定义了局部密度和距离,并将所有基因表示在以密度为x轴、距离为y轴的二维空间中,以检测二维空间右上角的基因密度峰值作为差异基因。
- 基因i的局部密度ρi定义为:
[
\rho_i = \left|\left{j|d_{ij} < d_c\right}\right|
]
其中,dij是基因i和j之间的距离,dc是手动给定的参数,在实验中,将dc设置为对所有基因间距离升序排序后的2%位置距离。 - 基因i的距离δi定义为:
[
\delta_i =
\
- 基因i的局部密度ρi定义为:
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



