药物发现中的机器学习与知识图谱及自然语言处理应用
1. 知识图谱概述
知识图谱概念能够轻松关联大量生物医学数据。它提供了包括机器学习在内的多种算法方法,用于解答药物重新定位、新靶点发现、靶点优先级排序、患者分层和个性化医疗等制药问题。
知识图谱并没有一个统一的定义。其现代意义上的术语于2012年谷歌宣布其新的智能搜索算法模型时出现。其中最具描述性的定义为:“知识图谱获取信息并将其整合到本体中,然后应用推理器来推导新知识”。
从经典图论定义来看,知识图谱是一种图。其底层的数学图概念使其区别于其他基于知识的概念。此外,当我们以本体的形式将数据的含义与数据一起编码时,它就是一个语义图。其核心思想是通过整合数据和元数据,将数据收集到自描述图中。在所有应用和领域中,知识图谱是一种灵活的结构,允许更改、删除和添加新数据。这种动态性要求准确收集来源和版本信息。
推理以及知识图谱在数学意义上是图这一事实,是知识图谱的基本特征。知识图谱通常是大型结构,例如,到2016年底,谷歌的知识图谱包含约七万亿个相互关联的事实。生物制药领域的典型知识图谱由数百万个节点和数十亿条边组成。大量的数据可借助机器学习技术进行推理,图结构的优势在于拥有一系列图论算法。
2. 图论算法
图论是一个成熟的数学领域,始于18世纪莱昂哈德·欧拉关于哥尼斯堡七桥问题的论文。数学上,图被定义为一组由边连接的节点:$G = (N, E)$,其中$N$是节点(也称为顶点)的集合,$E$是由两个节点组成的集合,其元素称为边。无向图是指所有边都是双向的图,而边有方向的图称为有向图。节点和边都可以有属性,这些属性在不同算法中起到权重的作用。
在知识图谱的背景
超级会员免费看
订阅专栏 解锁全文
1148

被折叠的 条评论
为什么被折叠?



