生物数据可视化与蛋白质分类的创新技术
在生物信息学领域,数据的有效展示与分析至关重要。本文将介绍两款工具,一款是用于展示生物数据树结构的 DigitalTree,另一款是用于蛋白质分类的 HiSP 概率数据挖掘技术。
DigitalTree:生物数据树结构展示工具
加权树在生物数据表示中应用广泛,如系统发育树可展示生物物种和基因的关系,生物数据也可通过最小生成树(MST)进行聚类。然而,将高维复杂的生物数据树结构可视化到二维平面存在挑战,现有的展示技术存在边权重比例不保留、缺乏处理标准化生物数据的能力等问题。
算法与方法
- 选择根节点 :从树 $T = {V, E}$ 中,DigitalTree 会选择一个能平衡树的根节点。定义顶点 $i$ 和 $j$ 之间的路径 $\gamma_{i,j}$,路径长度为其上边权重之和。第 $i$ 个顶点的根质量 $\Delta_i$ 计算如下:
$\Delta_i = \sum_{j\neq i} \left{ \sum_{e\in\gamma_{i,j}} w(e) \right}$
根节点的索引 $i_{root}$ 满足:
$i_{root} = \arg \min_{i} \Delta_i$ - 计算角度 :确定根节点后,所有后代节点会根据一定角度放置在二维平面上,边长度与对应边权重成比例。对于以顶点 $v$ 为根的子分支,$L(v)$ 表示叶子节点的数量。子节点 $v$ 的角度 $\beta_v$ 计算方式为:
$\beta_v =
\begin{case
超级会员免费看
订阅专栏 解锁全文
687

被折叠的 条评论
为什么被折叠?



