本文是LLM系列文章,针对《Distilling Named Entity Recognition Models for Endangered Species
from Large Language Models》的翻译。
摘要
自然语言处理(NLP)从业者正在利用大型语言模型(LLM),在不具备特定领域知识的情况下,从专利、论文和论文等半结构化和非结构化数据源创建结构化数据集。与此同时,生态专家正在寻找各种方法来保护生物多样性。为了促进这些努力,我们专注于濒危物种,并通过上下文学习,从GPT-4中蒸馏知识。实际上,我们通过两个阶段的过程为命名实体识别(NER)和关系提取(RE)创建了数据集:1)我们从四类濒危物种的GPT-4中生成了合成数据,2)人类验证了合成数据的事实准确性,得到了黄金数据。最终,我们的新数据集总共包含3.6K个句子,平均分为1.8K个NER和1.8K个RE句子。然后,由于GPT-4是资源密集型的,因此使用构建的数据集来微调一般的BERT和特定领域的BERT变体,完成从GPT-4到BERT的知识蒸馏过程。实验表明,我们的知识迁移方法在创建适用于从文本中检测濒危物种的NER模型方面是有效的。
1 引言
2 知识蒸馏
3 数据集创建
4 实验
5 讨论
6 结论
在这项研究中,我们研究了LLM生成可靠数据集的