A LARGE LANGUAGE MODEL EVALUATION BENCHMARK AND BASELINE FOR CHINESE PUBLIC SECURITY DOMAIN

最新推荐文章于 2025-12-12 17:54:27 发布

UnknownBody

最新推荐文章于 2025-12-12 17:54:27 发布

阅读量436

点赞数 16

CC 4.0 BY-SA版权

分类专栏： LLM Evaluation 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/137020950

LLM Evaluation 同时被 2 个专栏收录

97 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM 日更

828 篇文章

已下架不支持订阅

本文构建了CPSDbench，一个针对中国公共安全领域的语言模型评估基准，涵盖文本分类、信息提取、问答和文本生成四个维度。研究发现LLM在公共安全任务中有优势但也存在处理敏感信息的局限性，为未来定制模型提供参考。

本文是LLM系列文章，针对《CPSDBENCH: A LARGE LANGUAGE MODEL EVALUATION BENCHMARK AND BASELINE FOR CHINESE PUBLIC SECURITY DOMAIN》的翻译。

摘要

大型语言模型（LLM）已经在多个应用程序领域展示了巨大的潜力和有效性。为了评估主流LLM在公共安全任务中的表现，本研究旨在构建一个专门针对中国公共安全领域的评估基准——CPSDbench。CPSDbench集成了从真实世界场景中收集的与公共安全相关的数据集，支持在四个关键维度对LLM进行全面评估：文本分类、信息提取、问答和文本生成。此外，本研究引入了一套创新的评估指标，旨在更准确地量化LLM在执行与公共安全相关的任务时的效能。通过本研究进行的深入分析和评估，我们不仅加深了对现有模型在解决公共安全问题方面的性能优势和局限性的理解，而且为未来针对该领域应用开发更准确、更定制的LLM模型提供了参考。

1 引言

2 相关工作

3 方法

4 结果与分析

5 结论

本研究介绍了CPSDBench，这是一个专门为评估中国公共安全领域LLM而设计的基准。通过从现实世界的公共安全场景中收集数据集，并优化相关评估指标以更好地与特定任务保持一致，该基准对当前LLM进行了四个维度的全面评估：文本分类、信息提取、问答和文本生成。研究结果表明，以ChatGPT为例的LLM在完成大多数公共安全任务方面表现良好，但在处理敏感数据和对抗性样本方面表现出局限性。这项研究不仅有助于更深入地理解和评估现有模型在处理公共安全相关任务方面的优势和局限性，而且为未来开发更适合公共安全应用的定制模型提供了重要的参考和见解。
在我们未来的研究工作中，我