本文是LLM系列文章,针对《AI for Biomedicine in the Era of Large Language Models》的翻译。
大语言模型时代的生物医学人工智能
摘要
人工智能在生物医学方面的能力涵盖了广泛的领域,从原子层面(解决量子系统的偏微分方程)到分子层面(预测化学或蛋白质结构),再到传染病爆发等社会预测。以ChatGPT等模型为例,大型语言模型的最新进展在自然语言任务方面展现了非凡的能力,如翻译语言、构建聊天机器人和回答问题。当我们考虑生物医学数据时,我们观察到在序列方面与自然语言相似——生物医学文献和健康记录以文本形式呈现,生物序列或按序列排列的测序数据,或传感器数据(如大脑信号)以时间序列形式呈现。问题来了:我们能否利用最近大型语言模型的潜力来推动生物医学知识的发现?在本教程中,我们将探讨大型语言模型在三类关键生物医学数据中的应用:1)文本数据,2)生物序列,以及3)大脑信号。此外,我们将深入研究大型语言模型在生物医学研究中的挑战,包括确保可信度、实现个性化和适应多模态数据表示。