推荐使用:SPICE — 高精度量子力学数据集,助力机器学习势能模型
去发现同类优质开源项目:https://gitcode.com/
1、项目介绍
SPICE(Small-Molecule/Protein Interaction Chemical Energies)是一个专为训练分子模拟的机器学习势能函数而设计的数据集。该数据集着重于药物样小分子与蛋白质相互作用的量子力学数据,旨在覆盖广泛化学空间和构象,提供能量和力的信息,并随时间动态更新。
2、项目技术分析
- 多元素覆盖:SPICE 包括15种元素,从氢到碘,涵盖各种化学性质。
- 全方位构象采样:包括低能和高能状态,以模拟不同场景下的化学反应。
- 能量与力的联合信息:除了能量数据外,还包括力的计算结果,提高模型训练的信息含量。
- 附加信息丰富:提供了键序、电荷和原子多极矩等其他有用的Qm结果。
- 高级理论水平:采用ωB97M-D3BJ/def2-TZVPPD计算级别,确保数据准确性。
- 持续扩展:定期发布版本,保持数据的更新与增长。
- 开放许可:所有数据遵循公共领域等效的CC0许可证,无版权限制。
3、项目及技术应用场景
- 二肽:全面展示蛋白质中常见的共价交互。
- 溶质氨基酸:研究蛋白质-水以及水-水相互作用。
- ** PubChem 分子**:探索广泛的药理活性小分子。
- DES370K 分子对与单体:广泛采集非共价交互。
- 离子对:更深入地考察库仑相互作用。
这些子集可应用于机器学习势能模型的训练,以改进分子动力学模拟,特别是在药物发现、材料科学和生物物理等领域。
4、项目特点
- 宽泛的化学空间覆盖:包括不同的元素组合和分子大小。
- 全面的构象样本:跨越高低能量状态,模拟实际环境中的多样态。
- 丰富的训练数据:结合能量和力,提供更多训练信号。
- 跨程序兼容性:要求所有新数据使用相同的理论水平和程序设置进行计算,保证数据一致性。
引用和贡献
使用 SPICE 数据集时,请引用相关的科学论文。对于特定版本的数据集,请引用Zenodo上的DOI。此外,该项目还提供了示例输入文件,以便使用 Psi4 软件生成与 SPICE 兼容的新数据。
通过 SPICE,您可以构建更加精确和可靠的机器学习模型,进一步探索化学世界。快来加入这个项目,一起推动前沿的计算化学研究吧!
去发现同类优质开源项目:https://gitcode.com/
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考