本文是LLM系列文章,针对《Survey on Reasoning Capabilities and Accessibility of Large Language Models Using Biology-related Questions》的翻译。
摘要
本研究论文讨论了过去十年在生物医学和大型语言模型方面取得的进展。为了了解这些进步是如何相互携手的,本文还讨论了自然语言处理技术和工具与生物医学的整合。最后,该论文的目标是通过为前两种语言模型引入新的问题和提示列表,来扩展去年(2023 年)进行的一项调查。通过这项调查,本文试图量化 LLM 推理能力的改进,以及普通用户对这些改进的感受程度。此外,本文旨在通过促使 LLM 深入回答开放式问题来扩展对生物文献检索的研究。
1 引言
2 相关工作
3 方法
4 结果
5 讨论结论
我开始这项调查的目的是量化 GPT3.5 和 GPT4 之间在一般推理能力和可访问性方面所做的改进。提高大型语言模型的能力将是自然语言处理研究的一个令人难以置信的里程碑。反过来,由于自然语言处理技术(和工具)用于生物信息学(生物医学的关键部分),因此这种改进可能完全有利于生物医学领域是有道理的。此外,随着数据集扩充以及从实时反馈中学习(针对小样本和零样本场景)方面取得的进展,具有高推理能力的模型可以与小样本训练算法相结合,以:诊断患者、检测 3D 模式、生成序列、合成计算机程序并对数千种组合运行模拟。除了 LLM 的推理能力外,还必须牢记提示工程的效果,因为提示工程可以进一步提高大型语言模型的性能(如 ILF 论文中设计的小样本情景提示所示)。
在我的调查中,我预计在给定两个提示的情况下,每个模型的整体性能之间存在很大差异(GP

订阅专栏 解锁全文
2286

被折叠的 条评论
为什么被折叠?



