大规模语言模型理论解析
文章平均质量分 96
O-A-A
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LLM Agent:PaSa
PaSa 系统由两个 LLM 智能体组成:Crawler 和 Selector。Crawler 读取用户的查询内容,生成多个搜索查询,并检索相关的论文。检索到的论文会被添加到一个论文队列中。Crawler 进一步处理论文队列中的每一篇论文,以识别值得进一步探索的关键参考文献,并将任何新的相关论文添加到论文列表中。Selector 对论文列表中的每一篇论文进行全面审查,以评估其是否满足用户的查询要求。原创 2025-02-22 17:59:04 · 1269 阅读 · 0 评论 -
LLM:Agent
智能体的角色特征通常涵盖年龄、性别和职业等基本信息,以及反映智能体个性的心理信息,还有详述智能体之间关系的社会信息。当面对这些任务时,上述无反馈的规划模块可能效果不佳,原因如下:首先,直接从一开始就生成一个完美无缺的规划极其困难,因为这需要考虑各种复杂的先决条件。智能体的角色特征基于 LLM 自动生成。人类的记忆通常遵循这样一个过程:从记录感知输入的感觉记忆,到短暂保存信息的短期记忆,再到长期巩固信息的长期记忆。然而, LLM 有限的上下文窗口限制了将全面的记忆信息纳入提示词中,这可能会降低智能体的性能。原创 2025-02-22 17:51:01 · 1530 阅读 · 0 评论 -
LLM:RAG
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了信息检索(IR)和 LLM 的技术。它的核心思想是在 LLM 生成回答之前,通过检索相关文档来增强生成内容的上下文信息,从而帮助 LLM 更好地理解用户的查询并基于外部知识库生成更为准确和详细的回答。原创 2025-02-18 18:56:40 · 1111 阅读 · 0 评论 -
LLM:GPT 系列
GPT(Generative Pre-trained Transformer)是生成式预训练语言模型,基于 Transformer 架构,专注于通过自回归的方式生成自然语言文本,即给定一个输入序列xx1x2...xt,模型学习预测下一个单词xt1的条件概率Pxt1∣x1...xt。原创 2025-02-13 15:07:15 · 1630 阅读 · 0 评论 -
LLM:Qwen 系列
后训练数据(post-training data)的构建旨在增强模型在广泛领域的能力,包括编码、数学、逻辑推理、指令遵循和多语言理解,以及确保模型的生成结果符合人类价值观,使其有用、诚实和无害。Qwen 1 发布于 2023 年 8 月,Qwen 是一个全面的大型语言模型系列,涵盖了具有不同参数数量的不同模型,包括 Qwen 基础预训练语言模型和 Qwen-Chat,后者是通过人类对齐技术微调的聊天模型。高质量的多任务指令数据被整合到 Qwen2 的预训练过程中,以增强模型的上下文学习能力和指令跟随能力。原创 2025-02-10 08:08:10 · 1993 阅读 · 0 评论 -
LLM:DeepSeek 系列(二)
DeepSeek-V2 发布于 2024 年 5 月,为多领域专家(MoE)语言模型,包含总共 2360 亿个参数,其中每个词元激活 210 亿个参数,并支持 12.8 万个词元的上下文长度。DeepSeek-V2 采用包括多头潜在注意力(Multi-Head Latent Attention,MLA)和 DeepSeekMoE 在内的创新架构。MLA 通过将键值(KV)缓存显著压缩为一个潜在向量,保证了高效推理;而 DeepSeekMoE 则通过稀疏计算,能以较低成本训练出强大的模型。与 Deep原创 2025-02-08 22:19:53 · 1778 阅读 · 0 评论 -
LLM:DeepSeek 系列(三)
DeepSeek-V3 发布于 2024 年 12 月,采用了 DeepSeek-V2 中的多头潜在注意力(MLA)和 DeepSeekMoE 架构,此外,DeepSeek-V3 开创了一种无辅助损失的负载均衡策略,并设定了多词元预测训练目标以获得更强的性能。DeepSeek-V3 总参数量达 6710 亿个,每个词元激活 370 亿个参数,DeepSeek-V3 在 14.8 万亿个多样化且高质量标记上对 DeepSeek-V3 进行了预训练,随后通过监督微调和强化学习阶段来充分发挥其能力。原创 2025-02-08 22:21:07 · 1917 阅读 · 0 评论 -
LLM:DeepSeek 系列(一)
原文链接DeepSeek LLM 发布于 2023 年 11 月,收集了 2 万亿个词元用于预训练。在模型层面沿用了 LLaMA 的架构,将余弦退火学习率调度器替换为多步学习率调度器,在保持性能的同时便于持续训练。DeepSeek LLM 从多种来源收集了超过 100 万个实例,用于监督微调(SFT)。此外,利用直接偏好优化(DPO)来提升模型的对话性能。数据构建的主要目标是全面提升数据集的丰富性和多样性,将方法组织为三个基本阶段:去重、过滤和重新混合。去重和重新混合阶段通过采样独特实例确保数据的多样表现形原创 2025-02-08 22:16:22 · 2136 阅读 · 0 评论
分享