Entalpic 与 Hugging Face 合作推出了LeMaterial,这是一项旨在应对材料科学领域关键挑战的开源计划。通过将主要资源的数据统一到LeMat-Bulk(一个包含 670 万个条目的统一数据集)中,LeMaterial 旨在简化材料发现并加速 LED、电池和光伏电池等领域的创新。
材料科学处于量子化学和机器学习的交叉点,为推进不同技术提供了机会。然而,该领域在整合不同来源的数据方面面临着障碍。这些数据集虽然全面,但格式、参数和范围各不相同,带来了以下挑战:
- 格式和字段定义不一致。
- 偏见,例如材料项目中对氧化物的关注。
- 范围有限,例如 NOMAD 的重点是量子化学而不是材料特性。
- 缺乏跨数据库链接相似材料的标识符。
这些问题使机器学习模型的训练、相图的构建和新材料的发现变得复杂。 LeMaterial 寻求通过将这些主要来源的数据统一到 LeMat-Bulk 中来应对这些挑战,LeMat-Bulk 是一个包含 670 万个条目和 7 种材料属性的统一数据集。 LeMaterial 以Optimade、Materials Project、Alexandria和OQMD
等现有资源为基础,将它们纳入一个有凝聚力的框架中。它的一些定义特征包括:
- 标准化:LeMat-Bulk 确保跨数据集的属性定义一致。
- 数据集兼容性:研究人员可以访问使用 PBE、PBESol 或 SCAN 泛函计算的兼容子集,或探索更广泛的不兼容子集。
- 重复数据删除:材料指纹识别算法可识别重复的结构并跨数据库连接相似的材料。
LeMaterial 的创新贡献之一是材料指纹识别方法。这种方法为材料分配唯一的标识符,使研究人员能够快速确定材料是否新颖或是否已编目。与Pymatgen 的 StructureMatcher等传统方法相比,指纹算法表现出更高的效率和准确性,特别是在处理大型数据集时。
LeMaterial 的定位是通过各种应用对材料科学研究产生重大影响。它能够构建详细的相图,使研究人员能够更有效地分析化学空间。该项目有助于比较不同 DFT 泛函的材料属性,提供对其行为和变化的深入了解。
正如Entalpic 首席执行官兼联合创始人 Mathieu Galtier强调的 那样,此次发布对于材料科学界意义重大:
是的,对于一家初创公司来说,开源这样的核心技术是不寻常的,但我们坚信,Entalpic 只有与我们的学术、初创公司和工业生态系统一起才能取得成功。我们的领域还没有竞争;我们必须共同证明人工智能可以成为可持续再工业化的力量。
LeMaterial 旨在作为一项社区驱动的计划。我们鼓励研究人员通过提供反馈、扩展数据集和开发工具来做出贡献。
IBM 首席研究人员 Peter WJ Staar强调了合作的潜力:
这是一个伟大的举措!我们也一直在这个领域开展工作(PatCID、HF 上的托管模型和数据集),并且很乐意合作。
感兴趣的开发人员可以在Hugging Face上探索数据集或通过GitHub做出贡献。