本文是LLM系列文章,针对《Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources》的翻译。
摘要
目的
从文本数据中提取 COVID-19 疫苗后的不良事件 (AE) 对于监测和分析免疫接种的安全性、识别潜在风险并确保安全使用这些产品至关重要。传统的深度学习模型擅长学习顺序数据中复杂的特征表示和依赖关系,但通常需要大量标记数据。相比之下,大型语言模型(LLM)在理解上下文信息方面表现出色,但在命名实体识别(NER)任务上表现不稳定,这可能是由于它们的训练范围广泛但不具体。本研究旨在评估LLM和传统深度学习模型在 AE 提取中的有效性,并评估集成这些模型对性能的影响。
方法
在本研究中,我们利用疫苗不良事件报告系统 (VAERS) (n=621)、Twitter (n=9,133) 和 Reddit (n=131) 的报告和帖子作为我们的语料库。我们的目标是提取三种类型的实体:疫苗、疫苗和不良事件 (ae)。我们探索并微调了(GPT-4 除外)多个 LLM,包括 GPT-2、GPT-3.5、GPT-4、Llama-2 7b 和 Llama-2 13b,以及传统深度学习模型(如循环神经网络) (RNN)和用于生物医学文本挖掘的 Transformers 的双向编码器表示(BioBERT)。为了提高性能,我们创建了具有最佳性能的三个模型的集成。在评估方面,我们使用严格和宽松的F1分数来评估每个实体类型的性能,并使用微平均F1来评估整体性能。
结果
集成模型在“疫苗”、“射击”和“ae”方面取得了最高的性能,严格的 F1 分数分别为 0.878、0.930 和 0.925,微平均分数为 0.903。这些结果强调了针对特定任务微调模型的重要性,并证明了集成方
订阅专栏 解锁全文
7353

被折叠的 条评论
为什么被折叠?



