本文是LLM系列文章,针对《Developing a Scalable Benchmark for Assessing Large Language Models in Knowledge Graph Engineering》的翻译。
开发用于评估知识图谱工程中的大型语言模型的可扩展基准
摘要
随着大型语言模型(LLM)领域的加速发展,评估和监控其性能的关键需求出现了。我们介绍了一个专注于知识图谱工程(KGE)的基准测试框架,该框架伴随着三个挑战,即语法和纠错、事实提取和数据集生成。我们表明,虽然LLM是一种有用的工具,但它仍然不适合在零样本提示的情况下辅助知识图谱的生成。因此,我们的LLM KG Bench框架提供了LLM响应的自动评估和存储,以及统计数据和可视化工具,以支持对提示工程和模型性能的跟踪。
1 引言
2 相关工作
3 LLM-KG-Bench框架
4 框架的初步评估和第一项任务
5 结论和未来工作
我们表明,有必要衡量快速发展的LLM的知识图谱工程能力。我们提出并描述了用于此任务的新型LLM-KG Bench框架。对三个具有第一基准的高级别LLM的第一次评估显示了使用新框架进行自动评估的好处。
LLM KG Bench框架旨在实现基准任务和LLM之间的对话。评估LLM的能力,用一些反馈来修复他们的答案,例如改进或附加任务中的错误代码,这将是一件有趣的事情。我们期待着在更大的社区的帮助下,扩展到更多