本文是LLM系列文章,针对《PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition》的翻译。
摘要
在这项研究中,我们旨在减少使用大型语言模型(LLM)进行命名实体识别(NER)的生成延迟。LLM中高延迟的主要原因是顺序解码过程,该过程自回归地生成NER的所有标签和提及,显著增加了序列长度。为此,我们在用于NER的LLM中引入了并行解码(PaDeLLM-NER),这是一种无缝集成到现有生成模型框架中的方法,无需额外的模块或架构修改。PaDeLLM-NER允许同时解码所有提及,从而减少生成延迟。实验表明,对于英语和汉语,PaDeLLM-NER显著提高了推理速度,比自回归方法快1.76到10.22倍。同时,它保持了预测的质量,在各种数据集中的性能与最先进的技术不相上下。
1 引言
2 相关工作
3 方法
4 实验
5 加速分析
6 数据污染问题
7 结论
在这项工作中,我们介绍了用于NER的LLM中的并行解码(PaDeLLM-NER),这是一种用于高效NER的并行LLM解码框架。为了实现这一点,我们将传统NER任务的所有标签-提及对的自回归预测重新划分为两步预测:(1)
本文提出了一种名为PaDeLLM-NER的方法,用于减少大型语言模型(LLM)在命名实体识别(NER)任务中的延迟。通过并行解码,PaDeLLM-NER能够在不牺牲预测质量的前提下,显著提高推理速度,对于英语和汉语的实验显示,其速度提升可达1.76到10.22倍。
已下架不支持订阅
825

被折叠的 条评论
为什么被折叠?



