
LLM for chemistry
文章平均质量分 77
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model
虽然已经提出了各种模型和计算工具用于分子的结构和性质分析,但生成符合所有期望结构和性质的分子仍然是一个挑战。在这里,我们介绍了一个多约束分子生成大语言模型TSMMG,它类似于学生,融合了来自各种小模型和工具的知识,即“教师”。为了训练TSMMG,我们通过从这些“老师”中提取分子知识来构建一大组文本分子对,使其能够通过各种文本提示生成符合描述的新分子。原创 2024-07-07 11:55:26 · 86 阅读 · 0 评论 -
Large Language Models are In-Context Molecule Learners
大型语言模型(LLM)在生物化学任务中表现出了非凡的性能,尤其是分子字幕翻译任务,该任务旨在弥合分子与自然语言文本之间的差距。然而,先前使LLM适应分子字幕翻译任务的方法需要额外的特定领域的预训练阶段,在分子空间和文本空间之间存在弱对齐,或者对LLM的规模提出了严格的要求。为了解决这些挑战,我们提出了上下文分子适应(ICMA),作为一种新的范式,LLM可以通过上下文分子调节从上下文示例中学习分子文本对齐。具体来说,ICMA包括以下三个阶段:混合上下文检索、检索后重新排序和上下文分子调整。原创 2024-07-01 20:30:00 · 125 阅读 · 0 评论 -
LlaSMol LLM for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset
研究背景与问题:化学在药物发现、材料科学等领域至关重要,但大型语言模型(LLMs)如GPT-4在化学任务上表现不佳,现有研究表明其性能远低于任务特定模型,尤其是对分子表示SMILES的理解不足。数据集构建:提出SMolInstruct数据集,包含14个化学任务(如名称转换、性质预测、化学反应等)和超过300万样本。数据来自PubChem、MoleculeNet等多个来源,并经过严格质量控制(如过滤无效SMILES、纠正错误信息)。模型开发。原创 2024-04-01 14:22:23 · 157 阅读 · 0 评论 -
From Words to Molecules: A Survey of Large Language Models in Chemistry
近年来,大型语言模型(LLM)在自然语言处理(NLP)和各种跨学科领域取得了显著的成功。然而,将LLM应用于化学是一项复杂的任务,需要专业的领域知识。本文深入探讨了将LLM整合到化学领域中所采用的微妙方法,深入探讨了这一跨学科交叉点的复杂性和创新。具体来说,我们的分析首先考察分子信息是如何通过各种表示和标记方法输入LLM的。然后,我们根据化学LLM输入数据的领域和形式将其分为三组,并讨论整合LLM输入的方法。此外,本文还探讨了适应化学LLM的预训练目标。原创 2024-03-30 10:46:24 · 86 阅读 · 0 评论