
LLM-评测
文章平均质量分 89
如何构建评测系统
nopSled
一周一更
展开
-
The Power of Noise: Redefining Retrieval for RAG Systems翻译
大型语言模型 (LLM) 在各种任务中表现出了前所未有的熟练程度,从文本生成和复杂问答到信息检索 (IR) 任务。然而,LLM在处理长上下文方面受到限制,这一限制导致他们更加依赖他们预训练的知识。这种限制不仅限制了他们有效管理扩展对话(例如书籍或长时间对话)的能力,而且还增加了产生幻觉的可能性,即模型产生事实上不正确或无意义信息的情况。为了提高LLM生成的答案的准确性,检索增强生成(RAG)系统已成为一种有前景的解决方案。翻译 2024-02-25 04:51:53 · 447 阅读 · 0 评论 -
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources翻译
最新的生成式大语言模型引起了对语言技术潜力的前所未有的关注。为了和用户请求和聊天范式相对齐,这些模型经常进行指令微调步骤,该步骤涉及在有监督输入-输出对上进行训练。指令微调语料库通常是通过众包(Dolly,Open Assistant)或通过其他模型的蒸馏(Alpaca,Vicuna)来收集。但是,尽管某些公开的指令微调模型被宣传为可与强大的私有模型相当,例如ChatGPT,但大多数支持此类主张的实验仅涵盖一小部分任务,并且主要依赖于基于模型的评估指标。翻译 2023-07-06 16:03:33 · 316 阅读 · 0 评论 -
KoLA: Carefully Benchmarking World Knowledge of Large Language Models翻译
最近,像GPT-4这样的大型语言模型(LLM)取得的显着突破引起了广泛的关注。考虑到LLM表现出广泛而深刻的自然语言理解和生成能力,仅关注相对狭窄和浅层能力的常规基准不再有助于测试它们。因而有必要构建更好的基准,以有效地比较LLM并提供有价值的诊断结果。为此,研究人员提出了各种基准,重点是扩展评估范围以涵盖更广泛的能力或更具挑战性的任务。除了扩大评估范围以探索LLM能力的广度外,我们认为精心设计一个能建立深入理解LLM能力的评估基准,对不同LLM的公正性的评估也是必要的。翻译 2023-06-24 15:13:51 · 790 阅读 · 0 评论 -
C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models翻译
评估基准是AI开发的核心角色。虽然传统的NLP基准被设计用于衡量特定和相对简单的能力,但大语言模型(LLM)或基础模型已经展示了各种新功能,并将评估重点转移到了更通用和复杂的技能上,例如广泛的世界知识和复杂的推理技能。为了与LLM的新时代保持对齐,最近提出了一些新的测试基准,以探究各种LLM的能力。例如,MMLU,BIG-bench和HELM基准试图整合各种NLP任务以进行整体评估。其他一些基准特别关注随模型尺寸而出现的高级LLM能力,例如推理,难数学问题求解和编码。翻译 2023-05-25 15:24:25 · 1342 阅读 · 0 评论