本文是LLM系列文章,针对《Enhancing Software-Related Information Extraction via Single-Choice Question Answering with Large Language Models》的翻译。
通过使用大型语言模型进行单选问答来增强软件相关信息提取
摘要
本文描述了我们参与的软件提及消除歧义共享任务(SOMD),重点是通过使用单选问答的生成性大型语言模型(LLM)来改进学术文本中的关系提取。该方法优先考虑使用LLM的上下文学习能力来提取软件相关实体及其描述性属性,如分布式信息。我们的方法使用检索增强生成(RAG)技术和命名实体识别(NER)和属性NER的LLM来识别提取的软件实体之间的关系,为分析学术文献中的软件引用提供了一种结构化的解决方案。本文详细描述了我们的方法,展示了在单选QA范式中使用LLM如何大大增强IE方法。我们参与SOMD共享任务突显了精确软件引用实践的重要性,并展示了我们的系统克服消除歧义和提取软件提及之间关系的挑战的能力。这为该领域的未来研究和开发奠定了基础。
1 引言
2 相关工作
3 SOMD共享任务
4 使用LLM执行与软件相关的IE任务
5 实验
6 结果
7 结论
我们通过SingleChoice QA利用LLM增强关系提取(RE)的研究引入了一种新的交叉方法,旨在提高科学文本背景下信息提取的精度。通过将检索增强生成(RAG)与LLM集成,并采用有条不紊的方法对SciBERT等大型语言模型进行微调和利用,并使用该模型支持GPT变体,我们证明了LLM能够驾驭软件实体及其属性提取中固有的复杂性。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



