化学数据库中的知识发现实验
在有机化学领域,化学反应数据库对于合成规划至关重要。通过对这些数据库进行知识发现,可以挖掘出通用的合成方法,为化学家设计合成计划提供有力支持。本文将详细介绍一项在化学数据库中进行知识发现的实验,探讨其过程、结果及意义。
1. 引言
有机化学合成涉及战略和战术两个层面。战略层面关注通用合成方法,战术层面则涉及实际的化学反应。本研究旨在从化学数据库中发现通用合成方法,以设计通用且可重复使用的合成计划。
知识发现过程依赖于频繁项集搜索和关联规则提取等算法,同时也需要领域知识的支持。整个过程由领域专家监督,以确保结果的准确性和实用性。
目前,反应数据库管理系统是化学家进行合成规划的重要工具。然而,现有的知识系统在构建知识库方面存在困难。本研究设计了一种新的知识系统,结合了知识系统、数据库系统和知识发现的原理。
2. 化学背景
2.1 合成问题
化学家在解决合成问题时,需要在文献中搜索类似问题的特定反应。文献中描述的特定反应数量众多,但反应文档复杂且未标准化。
合成化学家主要关注目标分子所属的化学家族以及用于构建这些家族的合成方法。反应可分为构建分子骨架的反应和改变分子功能的反应。本文主要关注改变分子功能的反应,具体问题包括:给定形成的功能,其起始功能是什么;哪些反应允许将一种功能转化为另一种功能;在反应应用过程中,哪些功能保持不变。
2.2 反应数据库:数据选择和预处理
实验使用了两个反应数据库:“有机合成”数据库 ORGSYN - 2000(包含 5486 条记录)和“合成方法杂志”数据库 JSM - 200