大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain
AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents
【要点】:本文提出了AndroidLab,一个系统化的Android智能体训练和评估框架,通过该框架显著提升了大型语言模型和多媒体模型在Android设备上的任务成功率。
【方法】:研究开发了一个支持多种模态和动作空间的Android智能体操作环境,并构建了一个可复现的基准测试。
【实验】:使用AndroidLab环境,作者构建了Android指令数据集,并训练了六个开源的大规模语言模型和多媒体模型,实验数据集名为AndroidLab benchmark,实验结果显示模型的平均成功率有显著提升。
【链接】:https://www.aminer.cn/pub/6724346501d2a3fbfc6053c1
“Give Me BF16 or Give Me Death”? Accuracy-Performance Trade-Offs in LLM Quantization
【要点】:本文通过全面实证研究,研究了不同量化格式对大型语言模型(LLM)的准确性-性能权衡,并提出了新的量化改进方法,实现业界领先的准确性恢复效果。
【方法】:作者评估了FP8、INT8、INT4等流行量化格式在学术基准和实际任务中的量化准确性,并对整个Llama-3.1模型家族进行了测试。
【实验】:研究涉及超过500,000次单独评估,使用的数据集包括学术基准和实际任务,实验结果发现FP8权重和激活量化(W8A8-FP)在所有模型规模上无损,INT8权重和激活量化(W8A8-INT)在适当调整后误差低,W4A16-INT与8位整数权重和激活量化相当。通过使用开源vLLM框架在多种GPU架构上进行的推理性能分析,得出W4A16在同步部署中成本效率最高,W8A8格式在高端GPU上的异步“连续批处理”部署中表现最佳。
【链接】:https://www.aminer.cn/pub/6729a11001d2a3fbfc5ba45f
HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
【要点】:论文提出HtmlRAG方法,使用HTML格式而非纯文本格式来建模检索知识,以提高检索增强生成(RAG)系统的知识能力和减轻大型语言模型(LLM)的虚构问题。
【方法】:作者提出了一种HTML清洁、压缩和修剪策略,以及一种两步骤的基于块树修剪方法,以减少HTML的冗余内容同时保留关键信息。
【实验】:在六个问答(QA)数据集上进行实验,验证了使用HTML在RAG系统中相较于纯文本的优越性。
【链接】:https://www.aminer.cn/pub/672ae27101d2a3fbfc3ab462
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
【要点】:本文介绍了Agent K v1.0,一种能够自动优化并泛化处理多种数据科学任务的端到端自动化数据科学智能体,该智能体通过结构化推理框架和经验学习达到Kaggle大师级水平。
【方法】:Agent K v1.0采用高度灵活的结构化推理框架,动态处理嵌套结构的记忆,并通过选择性存储和检索关键信息来优化长短期的记忆,指导基于环境奖励的未来决策。
【实验】:本研究通过Kaggle竞赛作为案例研究来评估Agent K v1.0的能力,实验中智能体遵循完全自动化的协议处理复杂的多模态数据科学任务,并使用贝叶斯优化进行超参数调整和特征工程;Agent K v1.0在遵循从Kaggle竞赛URL开始生成并发送提交的全新评估框架下,实现了92.5%的任务成功率,并在与5856名人类竞争者对比中,Elo-MMR评分排名前38%,相当于Kaggle专家级别的用户水平,同时在Kaggle的进展系统中获得了相当于大师级别的成绩,包括6金、3银和7铜牌。
【链接】:https://www.aminer.cn/pub/672c2e9e01d2a3fbfc822709
OpenCoder: the Open Cookbook for Top-Tier Code Large Language Models
【要点】:本文介绍了OpenCoder,一种性能卓越的开源代码大型语言模型,它不仅性能接近商业模型,而且提供了完整的训练数据和数据处理流程,为科研社区提供了一个“开放食谱”。
【方法】:作者采用代码优化的启发式规则进行数据清洗和数据去重,同时使用与代码相关的文本语料库召回和高质量合成数据,在退火和监督微调阶段构建了OpenCoder模型。
【实验】:通过综合性的发布,包括模型权重、推理代码、可复现的训练数据、完整的数据处理流程、严格的实验消融结果和详细的训练协议,作者在多个任务上验证了OpenCoder的性能,并使用了未具体提及的代码相关数据集,取得了与领先模型相当的效果。
【链接】:https://www.aminer.cn/pub/672d7fec01d2a3fbfc49173b