本文是LLM系列文章,针对《Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model》的翻译。
摘要
虽然已经提出了各种模型和计算工具用于分子的结构和性质分析,但生成符合所有期望结构和性质的分子仍然是一个挑战。在这里,我们介绍了一个多约束分子生成大语言模型TSMMG,它类似于学生,融合了来自各种小模型和工具的知识,即“教师”。为了训练TSMMG,我们通过从这些“老师”中提取分子知识来构建一大组文本分子对,使其能够通过各种文本提示生成符合描述的新分子。我们的实验表明,TSMMG在生成满足两个、三个和四个约束任务的复杂、自然语言描述的性质要求的分子方面表现出色,平均分子有效性超过99%,成功率分别为88.08%、65.27%和61.44%。该模型还通过零样本测试表现出适应性,创造出满足尚未遇到的性质组合的分子。它可以理解各种语言风格的文本输入,超出了概述的提示的范围,这一点通过经验验证得到了证实。此外,TSMMG的知识提取功能有助于不断增强小型模型,而数据集构建的创新方法有效地解决了数据稀缺和质量问题,这使TSMMG成为药物发现和材料科学领域的一个有前途的工具。代码位于https://github.com/HHWzhou/T