厦门大学与英国爱丁堡大学合作开发了一种结合知识图谱(Cat-KG)和大语言模型(LLM)的创新方法,用于自动推荐接力催化反应路径。该方法通过LLM辅助数据采集构建包含27760个反应的Cat-KG,应用专业知识评分规则筛选路径,再利用LLM将结构化数据转化为可读化学方程式。系统成功推荐了乙烯、乙醇等多种目标化合物的反应路径,包括已报道和新发现的路径,为催化化学领域智能化提供了重要技术支撑。
前排提示,文末有大模型AGI-优快云独家资料包哦!

最近,厦门大学程俊教授课题组、王野教授课题组与英国爱丁堡大学Jeff Z. Pan教授课题组等携手合作,成功开发了一种创新性的研究方法。这种方法巧妙地融合了大语言模型(LLM)的强大处理能力与自主构建的催化知识图谱(Cat-KG)的专业数据,专门用于接力催化路径的智能推荐系统。该研究针对接力催化反应路径推荐这一重要科学问题,提出了全新的解决方案。这一突破性研究成果以"Synergizing Knowledge Graph and Large Language Model for Relay Catalysis Pathway Recommendation"为标题正式刊登在权威学术期刊National Science Review上,为催化化学领域的智能化发展提供了重要的技术支撑。

摘要
接力催化整合了多个催化反应,以高效转化中间体并提高转化率和选择性。然而,设计这些途径和多功能催化剂的过程通常漫长且成本高昂,严重依赖经验丰富的研究人员进行深入文献分析。为解决这一问题,我们开发了一种结合知识图谱(KG)和大型语言模型(LLMs)的方法,用于自动推荐多步催化反应途径。我们的方法涉及使用LLM辅助的工作流程进行数据采集和组织,然后构建详细的催化知识图谱(Cat-KG)。在查询Cat-KG(一个关于催化知识图谱的数据集)后,通过应用基于继电器催化专业知识的评分规则,识别出有前途的继电器催化路径。大型语言模型(LLM)随后将这些结构化的路径和反应条件数据转换成化学方程式和描述,以便化学家阅读。这一步骤整合了来自Cat-KG的催化知识,并通过使用可靠信息帮助避免LLM引起的幻觉。该方法高效地为乙烯、乙醇、2,5-呋喃二甲酸酯以及其他目标推荐了继电器催化路径,在几分钟内识别出与已报告路径一致的新路径,同时使用不同的反应条件,验证了其有效性。因此,这一策略可以外推已知和新颖的继电器催化路径,展示了其在路径选择中的潜在应用。
Synergizing Knowledge Graph and Large Language Model for Relay Catalysis Pathway Recommendation
研究团队构建的Cat-KG已实现催化反应的查询功能,并向公众开放,后续还将陆续开放路径查询等应用。
https://ai4ec.ac.cn/apps/chembrain

参考文献
Large Language Models and Knowledge Graphs: Opportunities and Challenges:https://arxiv.org/abs/2308.06374
关键词:继电器催化、知识图谱、大型语言模型、生成式预训练Transformer
核心速览
研究背景
- 1.研究问题:这篇文章要解决的问题是如何有效地推荐接力催化反应路径。接力催化通过整合多个催化反应来高效地转化中间体,增强转化率和选择性,但设计和优化这些路径和多功能催化剂通常耗时且成本高昂,严重依赖有经验研究人员的深入文献分析。
- 2.研究难点:该问题的研究难点包括:相关知识数据分散在多个来源,收集数据复杂;人工分析匹配催化剂和反应条件效率低,耗时长且主观性强;验证提出的路径需要昂贵且全面的实验工作,增加了研究的资源需求。
- 3.相关工作:该问题的研究相关工作包括利用知识图谱(KG)来整合化学反应和分子结构的网络,识别关键分子和合成路径,以及应用于有机反应的催化剂预测和反应条件优化。
研究方法
这篇论文提出了一种结合知识图谱(KG)和大语言模型(LLM)的方法,用于自动推荐多步催化反应路径。具体来说,
-
数据收集与组织:首先,使用LLM辅助的工作流程进行数据采集和组织。通过Gemini的数据提取能力从文献中收集全面的催化反应数据。

-
构建催化知识图谱(Cat-KG):然后,构建详细的催化知识图谱(Cat-KG)。Cat-KG涵盖了15881篇出版物和27760个热催化反应,其中包括18174个异相催化反应。

-
路径推荐:通过查询Cat-KG,应用基于专家知识的评分规则筛选出有前景的接力催化路径。然后,使用GPT-4将结构化的路径和反应条件数据转换为易于阅读的化学方程式和描述。

实验设计
- 1.数据收集:从15881篇相关出版物中收集数据,使用Gemini 1.5 Flash模型进行全文提取,确保数据的完整性和准确性。
- 2.数据处理:提取的文献信息、反应概览和反应细节首先以JSON格式结构化,然后存储在Chem-Brain平台中。
- 3.知识图谱构建:使用Neo4j构建Cat-KG,涵盖反应、反应物、催化剂、溶剂和产品五个类别,以及四种类型的关系和29个关键催化属性。
- 4.路径推荐系统:开发了一个自动化推荐系统,使用Cypher查询语言搜索Cat-KG中的候选路径,并应用评分规则过滤出高质量的路径。最后,使用GPT-4生成自然语言描述。

基于Cat-KG的中继催化通路查询、筛选与推荐流程。图(a)展示了Cat-KG的示意图,其中候选通路通过特定知识图谱查询生成。图(b)展示了使用评分规则对这些通路进行过滤和优先级排序的过程。图©呈现了由语言模型优化后的推荐中继催化通路,通过格式化处理提升可读性。
结果与分析
-
路径推荐效果:该方法能够在几分钟内推荐乙烯、乙醇和2,5-呋喃二甲酸等目标化合物的反应路径,包括与文献报道一致的路径和使用不同反应条件的路径。
-
路径验证:识别出四个已在文献中报道并验证的接力催化路径,包括乙烯、乙醇和2,5-呋喃二甲酸的合成路径。

-
数据分析:通过计算累积精度(P)、召回率(R)和F1分数,评估数据提取策略的有效性,结果显示平均精度为91.49%,平均召回率为91.18%,平均F1分数为0.9113。
总体结论
这篇论文成功开发了一种结合KG和LLMs的方法,用于有效推荐接力催化反应路径。通过构建详细的Cat-KG并使用GPT-4进行路径描述,该方法显著提高了接力催化研究的效率,并有助于发现新的反应路径。未来,计划扩展Cat-KG以涵盖光催化和电催化应用,并引入强化学习技术进一步优化路径推荐。
论文评价
优点与创新
- 1.结合了知识图谱(KG)和大语言模型(LLMs):该方法利用LLMs的数据采集和组织能力,结合KG的结构化知识,自动推荐多步催化反应路径。
- 2.高效的数据提取和处理:使用Gemini模型进行全文数据提取,结合序列提取和提示工程,显著提高了数据质量和完整性。
- 3.详细的Cat-KG构建:从15881篇相关文献中提取了27760个热催化反应,构建了包含29个关键属性的详细知识图谱。
- 4.自动化路径推荐系统:通过Cypher查询语言和LLM的自然语言生成能力,快速识别并推荐有价值的催化反应路径。
- 5.验证了已有文献中的路径:在推荐的路径中,有四条与文献报道的路径一致,展示了该方法的有效性。
- 6.发现新路径:提出了20条尚未在文献中报道的新路径,为未来的研究提供了新的机会。
- 7.用户友好的查询界面:开发了用户友好的查询界面,允许研究人员指定路径约束,提高了系统的可用性和客观性。
不足与反思
- 1.路径组合的局限性:当前方法主要关注单个反应的最佳催化剂和条件选择,尚未考虑跨步因素如酸-金属活性匹配、副产物管理或水热稳定性。
- 2.复杂化学处理的挑战:尽管LLMs在自然语言处理和化学信息总结方面表现出色,但在处理复杂化学问题时仍存在局限性,可能导致生成的内容不完全可靠。
- 3.未来工作方向:计划开发智能AI驱动的策略,推荐路径内各个反应的最佳条件,并考虑这些条件之间的相互作用。此外,引入强化学习技术,如人类反馈的交互式强化学习,以优化评分权重,使其更好地符合实际研究需求。
关键问题及回答
问题1:在构建催化知识图谱(Cat-KG)的过程中,如何确保数据的完整性和准确性?
- 1.全文提取:使用Gemini 1.5 Flash模型进行全文提取,而不是仅从单一段落中提取数据,以确保获取更全面的信息。
- 2.分步提取:采用顺序提取过程,将任务分为两个步骤以降低复杂性并提高结果质量。第一步提取反应概览和关键信息,第二步提取详细的反应步骤和数据。
- 3.模型优化:使用Gemini 1.5 Flash模型来提高对长文本的理解和提取准确性。
- 4.提示工程:设计可靠的提示语,确保提取的数据具有一致性和完整性。
- 5.数据清洗和实体消歧:实施数据清洗和实体消歧流程,通过基于规则的自动化系统提高效率,解决数据中的错误、遗漏、重复和不一致格式问题。
问题2:在路径推荐系统中,如何利用知识图谱和自然语言模型(LLM)来生成易于理解的化学方程式和描述?
- 1.路径搜索:使用Cypher查询语言从Cat-KG中搜索候选接力催化路径,基于指定的目标产物和路径长度进行查询。
- 2.评分和过滤:应用基于专家知识的评分规则,评估路径的有效性和可行性,过滤出高质量的候选路径。
- 3.自然语言描述生成:使用GPT-4将结构化的路径和反应条件数据转换为自然语言描述。具体步骤包括:
- •从Cat-KG中提取每个反应步骤的详细信息。
- •使用GPT-4的自然语言生成能力,将这些详细信息转换为易于阅读的化学方程式和描述。
- •通过一个专门的工具(如relay catalysis analyzer)自动格式化信息,确保输出的清晰性和可读性。
问题3:该方法在路径推荐方面有哪些实际应用和验证?
- 1.新路径推荐:为10种有价值的目标化合物(如下烯烃、乙烯、乙二醇、草酸、丙二醇、巴豆醛、1,3-丁二烯、1,4-丁二醇、顺-2-丁烯和2,5-呋喃二甲酸)提出了20条新路径,这些路径在文献中尚未报道。
- 2.文献验证路径:识别并验证了四个已在文献中报道并验证的接力催化路径,包括乙烯、乙醇和2,5-呋喃二甲酸的合成路径。这些路径的反应条件从高质量的催化期刊中获得,确保了路径的可靠性。
- 3.路径验证方法:通过与文献报道的路径进行对比,验证了推荐路径的原料、中间体和产物的一致性,并分析了反应条件的优化,确保每个步骤在其最佳反应条件下运行。

读者福利:倘若大家对大模型感兴趣,那么这套大模型学习资料一定对你有用。
针对0基础小白:
如果你是零基础小白,快速入门大模型是可行的。
大模型学习流程较短,学习内容全面,需要理论与实践结合
学习计划和方向能根据资料进行归纳总结
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓


👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

👉大模型视频和PDF合集👈
这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一,跟着老师的思路,由浅入深,从理论到实操,其实大模型并不难。

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

815

被折叠的 条评论
为什么被折叠?



