支持生物医学应用的多关系学习框架
在生物医学领域,数据之间存在着复杂的关系。例如,患者的临床数据与卵母细胞质量和植入成功率相关;卵母细胞质量对胚胎发育起着关键作用;而正确的胚胎发育对于后续的移植和植入成功至关重要。因此,多关系学习技术似乎是该应用领域最合适的方法。
1. 多关系学习方法
为了解决卵胞浆内单精子注射(ICSI)应用领域的知识提取任务,采用基于关系聚类和关系规则归纳的学习方法。使用的表示语言是Datalog,这是一种一阶逻辑语言。一阶字母表由一组常量C、一组变量V、一组函数符号F和一组非空的谓词符号P组成。多关系描述由应用于n个项ti(ti ∈ {C ∪ V})的一组谓词符号p ∈ P组成:p(t1, …, tn)。当多关系描述不包含变量时,称为基础描述。Datalog描述是一种仅使用变量和常量作为谓词参数的多关系描述。
1.1 多关系聚类
聚类是一种无监督学习技术,用于将一组对象划分为多个簇,使得每个簇内的对象彼此相似。对象之间的相似性可以使用各种距离度量来确定。
关系聚类处理关系数据(即使用一阶描述作为表示语言的对象),使用的距离度量通常比属性值表示的情况更复杂。因为数据的关系表示不是由固定数量测量的特征向量表示,所以通用的欧几里得距离不能应用于关系表示的数据。
这里使用距离函数和一种分区聚类算法的改进版本,即近似围绕中心点分区(APAM)。
距离函数采用Tanimoto度量的一种适应版本,用于定义两个多关系描述D1和D2之间的距离:
[d_{T\cap}(D_1, D_2, \alpha) = \frac{|D_1| + |D_2| - 2s_{\cap}(D_1, D
超级会员免费看
订阅专栏 解锁全文
1716

被折叠的 条评论
为什么被折叠?



