Hidden Entity Detection from GitHub Leveraging Large Language Models

文章主要内容

文章聚焦于利用大语言模型(LLMs)从GitHub仓库文本中自动检测数据集和软件实体,旨在解决知识图谱构建过程中相关实体识别的难题。研究分析了LLaMA 2、Mistral 7B及其量化模型在特定任务中的表现,并探讨了不同少样本提示学习方法对模型识别能力的影响。

  1. 研究背景与动机:知识图谱构建任务中,传统实体检测方法依赖大量训练数据,而在专业领域缺乏大规模训练数据的场景下,大语言模型的零样本(ZSL)和少样本(FSL)学习能力提供了新机遇。现有知识图谱构建工作忽视了科研论文相关的代码仓库、数据集和机器学习模型等资源,同时数据集共享存在查找和引用不便等问题。本文利用大语言模型自动发现GitHub仓库README页面中隐藏的数据集和软件,并提取它们用于知识图谱填充。
  2. 方法与实验设置:定义了提取和分类(E+CL)、分类(CL)两个任务,使用不同提示模板进行实验。选用LLaMA 2、Mistral 7B及其量化模型,用从unarXiv数据集提取的GitHub URL构建金标准数据,对模型输出进行后处理以实现自动评估,采用严格、精确、部分、类型匹配等评估指标。
  3. 实验结果与分析:在输出解析方面,Mistral模
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值