使用ChatGPT挖掘基因关系
作者如何利用大型语言模型(LLM)从生物医学文献中提取基因关系和生物通路的方法。作者首先使用了KEGG Pathway Database1作为基准数据集,包含了大约300种生物通路和9000种基因关系。然后,作者使用了多种提示词策略,来提高模型的准确性和效率。提示词策略是一种利用人类知识和语言规则来指导模型生成合理的输出的技术。作者使用了以下几种提示词策略:
使用GPT-4进行迭代提示优化
作者利用GPT-4的高级能力,设计了一个迭代提示优化的算法,通过引入元提示词(meta-prompt),指导GPT-4根据前一轮的性能指标(如F-1分数)来改进提示词,使用了一些高级推理技术,如链式思维和树状思维,来提高提示词的质量和适应性。元提示是一种用于生成提示的提示词,可以让模型自我反馈和自我调整,从而实现动态的提示词优化。作者使用了以下几种元提示:
探索复杂的基因关系
作者尝试挖掘复杂的基因相互作用,如基因交互链和与疾病相关的基因通路。作者使用了“由少到多”(LtM)的提示词技术,将复杂的问题分解为一系列更容易处理的子问题,逐步提供给模型,从而提高了模型的覆盖率和深度。作者使用了以下几种LtM提示词技术:
-
-
角色提示词(Role Prompt):这种提示词策略是在输入中加入一些特定的词语,来表示基因之间的关系类型,如“激活”、“抑制”、“表达”等。这样可以帮助模型更好地理解输入的意图和输出的格式。
-
少样本提示词(Few-Shot Prompt):这种提示词策略是在输入中加入一些已知的基因关系的例子,来作为模型的参考。这样可以帮助模型学习到基因关系的一般规律和特征,从而提高模型的泛化能力。
-
链式思维提示词(Chain Reasoning Prompt):这种提示词策略是在输入中加入一些中间的基因节点,来构成一个基因交互链。这样可以帮助模型进行更深层次的推理,从而发现更复杂的基因关系。
-
性能反馈元提示(Performance Feedback Meta-Prompt):这种元提示词是在每一轮的输出中加入一个性能指标,如F-1分数,来评估模型的表现。这样可以让模型知道自己的优劣,从而调整自己的输出。
-
链式思维元提示(Chain Reasoning Meta-Prompt):这种元提示词是在每一轮的输出中加入一个中间的基因节点,来构成一个基因交互链。这样可以让模型进行更深层次的推理,从而发现更复杂的基因关系。
-
树状思维元提示(Tree Reasoning Meta-Prompt):这种元提示词是在每一轮的输出中加入一个树状的基因结构,来表示一个基因通路。这样可以让模型进行更广泛的搜索,从而发现更多的基因关系。
-
基因交互链(Gene Interaction Chain):这种LtM提示词技术是将一个长的基因交互链分解为多个短的基因交互链,然后逐个提供给模型,让模型逐步推理出整个基因交互链的关系。
-
基因通路(Gene Pathway):这种LtM提示词技术是将一个复杂的基因通路分解为多个简单的基因通路,然后逐个提供给模型,让模型逐步推理出整个基因通路的结构。
-
疾病相关基因(Disease-Related Gene):这种LtM提示词技术是将一个与疾病相关的基因集合分解为多个与疾病相关的基因子集,然后逐个提供给模型,让模型逐步推理出与疾病相关的基因关系和作用。
-
大语言模型(LLM)|ChatGPT相关文章(以下点击可阅读):