【药物设计】5分钟快速了解药物设计中什么是motifs?

5分钟快速了解药物设计中什么是motifs?

1. 什么是Motifs?

维基百科:经常出现的统计学上非常重要的子图或子结构
**“高出现频率的分子片段”**是它与fragment的区别,一个是高频出现一个不是高频出现。

下面给出例子,分子图通过一些分解手段来构造一些子结构,列出了如下4个例子:
Motifs示例

  1. 第一个子结构包含了绝大多数分子图中的点,也就是说本身这个子结构包含了很多非常有用的信息。但是由于这个结构非常特殊,很难在其他图中找到相同的子结构,所以就不把它当作motif。
  2. 第二个和第三个例子可以被当作motif,首先是因为它们都经常出现在各种分子图中。另一方面根据化学中的domain knowledge,可以知道这两个子结构具有特殊的性质。所以认为这两种子结构都可以被当作motif。
  3. 最后一个例子是一个碳氢结构,该结构也经常出现在图中。但是目前还很难知道它有什么特殊的性质,所以不把它作为motif。

2. 为什么要了解Motifs?

第一个原因就是motif已经在图领域被广泛学习,而且已被证明可以对一些图表示学习起到帮助。第二个原因是motif作为统计学上较重要的子图,学习motif本身也就如同在学习图中的一个重要子结构。自然也可以学习到一些有用的信息来帮助分子图的表示学习。
Motifs的重要意义
对比NLP和图领域,这两者有非常多的相似之处。在图中以node作为基本的单位,在NLP中把字母作为基本的单位;图中的edge这种两个node之间的关系可以看做NLP中两个相邻字母之间的关系;图中的子图在NLP中也可以用连续的字母作为相对应的关系。图中的motif在NLP中也可以被看作word,在NLP中word embedding的学习是非常重要的,无论是对于sentence还是document。类比过来,图中motif的学习对于graph的学习也是非常重要的

3. Motif字典

构建motif的字典,首先给一个数据集选取一个提取motif的方法,然后遍历数据集中所有的分子图提取出一些子图。也可以进行筛选,选出一些重要的子图。当然也可以不做筛选,全部放在字典之中。这样肯定也不会遗漏信息。
Motif字典
需要强调的是,提取motif方法的选择也很重要。可以用环来代表非常多的motif,本研究中的提取方法就是选取所有的环结构,那些不在环结构上的边作为motif放入字典之中。其他一些分子中的成熟的decomposition方法例如RECAPBRICS提取出来的motif相对较大,很难控制字典的大小,因为当motif过大的时候就不够基础,提取出的motif中数量就很难控制只提取环和边的另一个好处是其时间复杂度不是很高,只有 O ( n 2 ) O(n^2) O(n2)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

镰刀韭菜

看在我不断努力的份上,支持我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值