材料化合物生成与聚类方法的创新研究
在材料科学和数据挖掘领域,化合物生成和聚类分析是两个重要的研究方向。本文将介绍一种用于生成所需化合物的深度生成模型,以及一种结合了成对约束和单调性约束的聚类方法。
独立训练的嵌套变分自编码器生成所需化合物
在材料开发中,缩短开发时间是一个重要目标。研究人员通过提出具有高性能改进可能性的化合物作为实验候选物,来研究一种深度生成模型。
改进的 MatVAE 模型具有两个不同数据集和学习目标训练的变分自编码器(VAE)的嵌套结构。为了使潜在空间与目标属性强相关,提出了损失函数 $L_{corr}$。通过控制对 $Z_{in}[0]$ 的偏差,实验结果表明该模型能够以高概率提出具有外推合成可及性分数(SAS)的化合物。模型输出的 SMILES 更长且更多样化,同时满足语法规则。
具体来说,通过对偏差大小的控制,观察生成化合物超过原始化合物 SAS 和训练数据集中学习化合物 SAS 的概率。结果显示,所提出的损失函数 $L_{corr}$ 按预期工作,能够将预定的潜在组件与目标属性强相关联。通过向相关组件添加偏差,可以控制生成化合物的属性。
将改进的 MatVAE 应用于化学工业实际制造商提供的过去实验数据,虽然由于目标材料数据的机密信息未披露详细结果,但与使用 XGBoost(XGB)模型的传统虚拟筛选方法相比,实验次数可减少四分之一。
聚类分析:单调约束聚类的首次尝试
聚类是无监督学习框架中的关键研究领域,旨在将数据集中的实例分组为不同的簇。在半监督学习范式下,当只有不完整或部分信息可用时,聚类可以产生更好的结果。
经典的约束聚类和最近的单调聚类问
材料化合物生成与聚类方法创新研究
超级会员免费看
订阅专栏 解锁全文
63

被折叠的 条评论
为什么被折叠?



