ChemLLM 介绍
ChemLLM 系列模型 是由上海人工智能实验室基于InternLM2 开发的首个兼备化学专业能力和对话、推理等通用能力的开源大模型。相比于现有的其他大模型,ChemLLM 对化学空间进行了有效建模,在分子、反应和其他领域相关的化学任务上表现优异。
上海人工智能实验室 AI for Science 团队基于自建 ChemData 化学专业数据集,在本年初发布的浦科·化学基础上,更新发布了 ChemLLM-1.5 化学大模型,并在新构建的 ChemBench 测评数据集上进行了全面的测评。更新后,ChemLLM 在核心化学任务上的效果与 GPT-4 相当,而在通用任务上与尺寸相近的语言模型难分伯仲。
科学大语言模型的机遇与挑战
大型语言模型已在图像处理、文字识别、视频制作等多个领域展现出卓越的能力,并已成功应用于化学研究,为科学研究和生产提供支持。目前的研究主要依赖于大型语言模型调用专业化学工具来解决具体的化学问题。然而,直接将化学知识集成到语言模型中,仍然存在以下挑战:
-
结构化数据的限制: 大多数化学信息和知识存储在结构化数据库中,直接使用这些数据训练 LLM 可能会损害模型处理自然语言的能力,使得模型的对话和逻辑推理能力发生退化;
-
特殊的化学信息学表示: 化学信息学中,分子用特殊符号表示,如 SMILES。这类数据往往不符合自然语言的规范,因此常规的语言模型难以正确理解和生成这种符号;
-
化学数据和任务的多样性: 化学数据和任务种类繁多,设计一个灵活并能泛化到多种化学任务上的训练流程十分困难。