推荐项目:$\nabla^2$ DFT —— 药物类分子的通用量子化学数据集及神经网络势能基准

推荐项目:$\nabla^2$ DFT —— 药物类分子的通用量子化学数据集及神经网络势能基准

项目地址:https://gitcode.com/gh_mirrors/na/nablaDFT

项目介绍

$\nabla^2$ DFT 是一个开源项目,旨在提供一个大规模的药物类分子电子结构数据集,并建立一个用于多分子环境中分子性质估计的新颖基准。该项目由 AIRI 研究所开发,目前版本为 2.0。通过这个项目,研究人员可以评估多种方法在量子化学计算中的性能。

电子波函数计算是计算量子化学的基本任务,了解波函数参数可以计算分子和材料的物理和化学性质。$\nabla^2$ DFT 项目通过引入一个新的、精心策划的大规模数据集,为研究人员提供了一个强大的工具,以推动量子化学领域的发展。

项目技术分析

核心技术

  1. 数据集构建:基于 Molecular Sets (MOSES) 数据集 的子集,包含 1,936,931 个分子,涉及 C、N、S、O、F、Cl、Br、H 等原子。每个分子提供 1 到 62 个独特的构象,总计 12,676,264 个构象。
  2. 量子化学计算:使用 Kohn-Sham 方法在 ωB97X-D/def2-SVP 理论水平上,通过 Psi4 软件包计算每个构象的电子属性,包括能量 (E)、DFT 哈密顿矩阵 (H) 和 DFT 重叠矩阵 (S)。
  3. 基准测试:提供多个数据集分割,用于比较不同模型的性能,并包含多种神经网络势能模型的实现和评估。

技术栈

  • 编程语言:Python
  • 依赖库:CUDA 11.8~12.1, Psi4, ASE, PyTorch Geometric, PyTorch Lightning
  • 许可证:MIT

项目及技术应用场景

  1. 药物设计:通过分析分子构象和电子结构,辅助新药研发。
  2. 材料科学:预测材料的物理和化学性质,加速新材料的设计。
  3. 量子化学研究:为量子化学计算提供大规模数据集和基准测试,推动算法和模型的改进。
  4. 机器学习应用:结合深度学习技术,提升分子性质预测的准确性和效率。

项目特点

  1. 大规模数据集:包含近两百万个分子及其构象的电子结构数据,为研究提供丰富的实验材料。
  2. 多模型支持:支持多种神经网络势能模型,如 SchNOrb、PhiSNet、SchNet、PaiNN、DimeNet++、EquiformerV2、eSCN、GemNet-OC、Graphormer3D 和 QHNet,满足不同研究需求。
  3. 易于使用:提供详细的使用说明和示例代码,用户可以快速上手。
  4. 开源共享:项目完全开源,研究人员可以自由使用和扩展。

安装与使用

安装

git clone https://github.com/AIRI-Institute/nablaDFT && cd nablaDFT/
pip install .

数据集访问

哈密顿数据库

下载最小文件 (train-tiny 数据分割,14 Gb):

wget https://a002dlils-kadurin-nabladft.obs.ru-moscow-1.hc.sbercloud.ru/data/nablaDFTv2/hamiltonian_databases/train_2k.db

使用示例:

from nablaDFT.dataset import HamiltonianDatabase

train = HamiltonianDatabase("train_2k.db")
Z, R, E, F, H, S, C, moses_id, conformation_id = train[0]
能量数据库

下载最小文件 (train-tiny 数据分割,51 Mb):

wget https://a002dlils-kadurin-nabladft.obs.ru-moscow-1.hc.sbercloud.ru/data/nablaDFTv2/energy_databases/train_2k_v2_formation_energy_w_forces.db

使用示例:

from ase.db import connect

train = connect("train_2k_v2_formation_energy_w_forces.db")
atoms_data = train.get(1)
原始 Psi4 波函数

下载最小文件 (6.8 Gb):

https://a002dlils-kadurin-nabladft.obs.ru-moscow-1.hc.sbercloud.ru/data/moses_wfns_big/wfns_moses_conformers_archive_0.tar
tar -xf wfns_moses_conformers_archive_0.tar
cd mnt/sdd/data/moses_wfns_big/

加载属性示例:

import numpy as np
wfn = np.load('wfn_conf_50000_0.npy', allow_pickle=True).tolist()
orbital_matrix_a = wfn["matrix"]["Ca"]  # alpha 轨道系数
# 更多属性加载...

模型运行

从仓库根目录运行以下命令:

python run.py --config-name <config-name>.yaml

详细配置请参考 运行配置 README

结语

$\nabla^2$ DFT 项目为量子化学和机器学习领域的研究人员提供了一个宝贵的资源,无论是进行学术研究还是应用开发,都能从中受益。欢迎大家使用和贡献,共同推动科学进步!

如需引用本项目,请使用以下格式:

@article{10.1039/D2CP03966D,
author ="Khrabrov, Kuzma and Shenbin, Ilya and Ryabov, Alexander and Tsypin, Artem and Telepov, Alexander and Alekseev, Anton and Grishin, Alexander and Strashnov, Pavel and Zhilyaev, Petr and Nikolenko, Sergey and Kadurin, Artur",
title  ="nablaDFT: Large-Scale Conformational Energy and Hamiltonian Prediction benchmark and dataset",
journal  ="Phys. Chem. Chem. Phys.",
year  ="2022",
volume  ="24",
issue  ="42",
pages  ="25853-25863",
publisher  ="The Royal Society of Chemistry",
doi  ="10.1039/D2CP03966D",
url  ="http://dx.doi.org/10.1039/D2CP03966D"}

pipeline

nablaDFT nablaDFT: Large-Scale Conformational Energy and Hamiltonian Prediction benchmark and dataset nablaDFT 项目地址: https://gitcode.com/gh_mirrors/na/nablaDFT

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

孔秋宗Mora

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值