Developing a Scalable Benchmark for Assessing Large Language Models in Knowledge Graph Engineering

828 篇文章

已下架不支持订阅

本文提出了一种名为LLM-KG-Bench的基准测试框架,专注于评估大型语言模型在知识图谱工程中的性能。框架包含三个挑战,即语法和纠错、事实提取和数据集生成。初步评估显示,虽然LLM在某些任务上有用,但无法在零样本提示下有效辅助知识图谱生成。LLM KG Bench提供自动评估和跟踪工具,以促进对模型性能和提示工程的理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Developing a Scalable Benchmark for Assessing Large Language Models in Knowledge Graph Engineering》的翻译。

开发用于评估知识图谱工程中的大型语言模型的可扩展基准

摘要

随着大型语言模型(LLM)领域的加速发展,评估和监控其性能的关键需求出现了。我们介绍了一个专注于知识图谱工程(KGE)的基准测试框架,该框架伴随着三个挑战,即语法和纠错、事实提取和数据集生成。我们表明,虽然LLM是一种有用的工具,但它仍然不适合在零样本提示的情况下辅助知识图谱的生成。因此,我们的LLM KG Bench框架提供了LLM响应的自动评估和存储,以及统计数据和可视化工具,以支持对提示工程和模型性能的跟踪。

1 引言

2 相关工作

3 LLM-KG-Bench框架

4 框架的初步评估和第一项任务

5 结论和未来工作

我们表明,有必要衡量快速发展的LLM的知识图谱工程能力。我们提出并描述了用于此任务的新型LLM-KG Bench框架。对三个具有第一基准的高级别LLM的第一次评估显示了使用新框架进行自动评估的好处。
LLM KG Bench框架旨在实现基准任务和LLM之间的对话。评估LLM的能力,用一些反馈来修复他们的答案,例如改进或附加任务中的错误代码,这将是一件有趣的事情。我们期待着在更大的社区的帮助下,扩展到更多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值