分子枚举与采样技术:原理、方法及应用
1. 分子枚举算法进展
在分子研究领域,异构体枚举是一项重要的工作。Wieland在Nourse技术基础上,提出了一种立体异构体枚举算法,该算法允许立体中心的价态大于4。目前,结构异构体的枚举已不再是技术难题,例如通过访问期刊MATCH的网页,输入任意分子式,就能借助MOLGEN算法可视化对应的异构体列表。不过,MOLGEN算法虽能对含至多50个非氢原子的分子图进行枚举,但并非所有化合物家族都能被准确计数。而且,异构体枚举存在一个问题,即会产生大量的解。虽然可以通过添加约束条件来减少解的数量,但这会使计算变得更加困难,尤其是在处理重叠片段时,问题可能变得难以解决。在计算机科学中,通常会采用随机技术来处理这类难题,接下来将详细介绍用于结构解析和分子设计的分子结构采样随机技术。
2. 图的采样方法
2.1 有标签和无标签图的采样
- 有标签图采样 :随机采样具有n个顶点和q条边的有标签图,可通过从n(n - 1)/2个可能的顶点对集合中随机选择q对顶点来实现。根据是否需要创建多重边,这种随机选择可以有放回或无放回地进行。
- 无标签图采样 :无标签图的处理比有标签图更具挑战性。Nijenhuis和Wilf展示了如何采样无标签的有根树,Wilf进一步扩展了该方法,给出了采样无标签无根树的算法,该算法基于树的计数序列。对于循环图,Dixon和Wilf首次提出了采样具有指定n个顶点的无标签图的算法,具体步骤如下:
- 从所有可能的排列集合(即对称群Sn)中选择一个n个顶点的排列p。例如,假设选