扩展连通性指纹(Extended Connectivity Fingerprints,ECFPs)原理介绍

本文介绍了扩展连通性指纹(ECFPs)的基本原理、应用、特性,以及与路径指纹的对比。ECFPs是一种圆形拓扑指纹,常用于药物设计中的相似性搜索和构效关系建模。生成流程包括初始化原子标识符、迭代更新和去重,表示方法有整数标识列和定长比特串。在rdkit中,ECFPs可以用SparseBitVects或ExplicitBitVects表示,并可用于分子指纹的计算。

一、简介

本文参考自ChemAxon的介绍。英文版在这里。细节部分与rdkit略有不同,但原理基本一致。

扩展连通性指纹(Extended-Connectivity Fingerprints,ECFPs)是一种圆形拓扑指纹,可用于分子表示、相似性搜索、构效关系建模。它在药物设计中有诸多应用,是最受欢迎的相似性比对工具。

二、应用

ECFPs是非常高效且流行的搜索工具,并有着广泛的应用。

ECFPs最早应用在高通量筛选(high-throughput screening,HTS)中,用于分析HTS中假阳性和假阴性先导物。此外,ECFPs也经常应用在基于配体的虚拟筛选中,用来判断化合物是否有活性。大量的实验结果表明,这种圆形拓扑指纹是效果最好的搜索工具之一。

在药物研究中,许多领域都涉及到相似性搜索,都用到了分子结构中蕴含的大量信息,例如化合物聚类,以及化合物库分析等。

除了相似性搜索,ECFPs也可以用来识别是否含有一个特定的子结构。因此,它也经常应用在QSAR和QSPR建模中(例如ADMET属性预测),并优化先导物性质。

三、特性

ECFPs的主要属性有如下几点:

  • 它通过圆形原子邻域(circular atom neighborhoods)来表示分子结构
  • 计算速度快
  • 这些特征代表特定子结构的存在与否
  • 没有经过预定义,可以表示大量不同的分子特性(包括立体化血信息)
  • 它用来表示功能基团(functionality)的是否存在,对于分析分子活性至关重要
  • 它的生成算法非常灵活,可以针对不同的场景,生成不同的指纹

四、与路径指纹的对比

基于路径的指纹(path-based fingerprints)广泛用于子结构搜索中预过滤(pre-filtering)。与这种指纹相反,ECFPs并不适合子结构搜索,而适合快速高效地筛选整个分子和进行相似性搜索。ECFPs可以为相似性搜索提供充分的结果,更接近药物化学家的需求。

五、表示方法

ECFPs在ChemAxon中有如下两种表示方式。

1.整数标识列(list of integer identifiers)

  • ECFPs可以通过一组不定长的整数标识符来表示,这是最原始和最精确的表示方法。每个标识符代表了一个特定的子结构,更准确地说是分子里的一种圆形原子邻域。这种整数标识符是按升序排列。
  • 这些标识符也可以被理解为是一个超大的虚拟比特串的索引。比特串中的每个位置表示一个特定子结构的特征。因为这个虚拟的比特串非常庞大且稀疏,所以它并没有被显式地存储,而是用代表比特串的索引来组成这个不定长的整数列表。由于技术原因,这种特征标识符存储为一种有符号的数值,因此是可正可负的。
  • 默认情况下,在一个整数标识列中,每种标识符最多仅含一个(rdkit默认不会去重)。然而,在一些特定的场景下,也需要考虑某种标识符在分子中出现的频数,这种ECFPs的变体叫做ECFC。在ChemAxon的工具中,有一个参数控制是否统计频数,默认模式为不统计,统计时称为ECFC模式。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值