
LLMs-其他
文章平均质量分 88
CSPhD-winston-杨帆
合作:winstonyf@qq.com 暨大博士生 川师大研究生 前成都东软教师
展开
-
论文翻译:arxiv-2024.Wei-Lin Chiang.Chatbot Arena: An Open Platform for Evaluating LLMs by Human
大型语言模型(LLMs)已经解锁了新的能力和应用;然而,评估与人类偏好的一致性仍然面临重大挑战。为了解决这个问题,我们介绍了Chatbot Arena,一个基于人类偏好评估LLMs的开放平台。我们的方法采用成对比较方法,并通过众包利用多样化用户群的输入。该平台已经运行了几个月,累积了超过24万张选票。本文描述了该平台,分析了我们迄今为止收集的数据,并解释了我们使用的久经考验的统计方法,用于有效和准确地评估和排名模型。我们确认众包问题足够多样化且具有区分度,众包人类选票与专家评分者的结果非常一致。原创 2024-09-24 20:33:48 · 201 阅读 · 0 评论 -
2024-9-18 大语言模型问题 美团王兴:745万骑手获800亿报酬,人均多少问题
我就产生了个问题,745万骑手获800亿报酬,人均多少钱。我就把这个问题输入到各个大模型,结果答案不一致,并且差异还挺大的。原创 2024-09-18 12:11:15 · 515 阅读 · 0 评论 -
论文翻译:PMLR-2023 Automatically Auditing Large Language Models via Discrete Optimization
对大型语言模型进行审计以发现意外行为对于预防灾难性的部署至关重要,但这一任务仍然具有挑战性。在这项工作中,我们将审计视为一个优化问题,其中我们自动搜索匹配期望目标行为的输入-输出对。例如,我们可能旨在找到一个以“Barack Obama”开头的非毒性输入,而模型将其映射到一个有毒的输出。这个优化问题难以解决,因为可行点集稀疏,空间是离散的,而且我们审计的语言模型是非线性和高维的。为了应对这些挑战,我们引入了一个离散优化算法ARCA,它联合并高效地优化输入和输出。原创 2024-09-11 11:02:31 · 732 阅读 · 0 评论 -
论文翻译:An Evaluation System for Large Language Models based on Open-Ended Questions
我们设计了一个基于开放式问题的大语言模型评估系统。该系统使用开放式问题对大型语言模型(LLMs)进行了多维度评估,并以评估报告的形式呈现评估结果。目前,大语言模型的评估通常存在两个显著的限制(1)评估方法往往是单一的,导致结果可信度较低。(2)大多数评估基于封闭式问题数据集,将生成性大型语言模型视为判别性模型,这未能充分反映这些模型的高输出灵活性特点。针对这两个限制,我们提出了一个基于开放式问题的LLMs评估系统。我们在适配的开源数据集上的实验证明了该系统的有效性。原创 2024-09-03 20:25:21 · 776 阅读 · 0 评论 -
论文阅读:基于大模型的教学智能体构建与应用研究
随着生成式人工智能的快速发展,基于大模型的智能体已经逐步具备了多模态感知、检索增强生成、推理与规划、交互与进化等能力。该研究提出基于大模型的教学智能体的基本概念与框架,以“大模型”为技术核心,重点构建“教育任务设定”“教育任务规划”“教育能力实现与拓展”“教育内容记忆与反思”“交互协作与动态进化”多个功能模块,支持与多类型对象交互并实现动态进化,涵盖人机交互、多智能体交互以及环境交互。转载 2024-08-31 14:48:24 · 3359 阅读 · 0 评论 -
论文翻译:Scaling Instruction-Finetuned Language Models
在一系列以指令形式表述的数据集上对语言模型进行微调已被证明可以提高模型性能并推广到未见任务。在本文中,我们探索了指令微调,特别关注(1)扩展任务数量,(2)扩展模型规模,以及(3)在思维链数据上进行微调。我们发现,上述方面的指令微调显著提高了多种模型类别(PaLM、T5、U-PaLM)、提示设置(零次、少次、思维链)和评估基准(MMLU、BBH、TyDiQA、MGSM、开放式生成、RealToxicityPrompts)的性能。原创 2024-08-29 12:43:09 · 1228 阅读 · 0 评论 -
论文翻译:A Survey on In-context Learning
随着大型语言模型(LLMs)能力的增强,上下文学习(ICL)已成为自然语言处理(NLP)的新范式,其中LLMs基于少数示例增强的上下文进行预测。探索ICL以评估和推断LLMs的能力已成为一个显著趋势。在本文中,我们旨在调查和总结ICL的进展和挑战。我们首先提出ICL的正式定义,并阐明其与相关研究的相关性。然后,我们组织和讨论先进技术,包括训练策略、提示设计策略和相关分析。此外,我们探索了ICL的各种应用场景,如数据工程和知识更新。最后,我们讨论了ICL的挑战,并为进一步研究提出潜在方向。原创 2024-08-23 16:21:23 · 736 阅读 · 0 评论