变量选择:选择过多的困扰?
1. 引言
在20世纪60 - 70年代,计算机辅助药物设计尚处于起步阶段,几乎不需要进行任何变量选择。当时,在Corwin Hansch将物理有机化学方法应用于生物活性分子的描述后,药物设计师只能从有限的列表化物理化学描述符中进行选择。
- 传统描述符的局限性 :对于芳香族取代基,通常用p和s来描述疏水和电子效应,用Es或MR等参数来描述体积。但这种定量描述化学结构的方法存在很大弊端,它需要一个“母体”结构,这就将定量构效关系(QSAR)的生成限制在了同系物系列。而且列表数据存在“缺口”,这些缺失值往往是由于化学不稳定、合成困难、极端值等原因造成的,填补这些缺口非常困难。
- 拓扑参数的出现 :拓扑参数是第一批可以为任何化学结构计算的分子描述符(除了像分子量、原子计数等明显参数外),只需要化学结构的标准二维表示即可计算。最著名的拓扑参数是由Randic首次描述,并由Hall和Kier等人广泛研究的分子连接性指数。这些描述符在构建许多生物特性的QSAR模型中被广泛使用,尤其是在环境研究领域,因为环境研究中的数据集通常包含多种化合物,而拓扑描述符可以为任何结构计算。
下面是分子连接性指数的计算示例,以戊 - 3 - 醇为例:
连接性指数的计算步骤如下:
1. 为每个原子分配连接度$d_i$,表示与第$i$个原子相连的原子数。
2. 对于结构中的每个键,计算键连接性$C