自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1254)
  • 资源 (4)
  • 收藏
  • 关注

原创 【LLM】多模态LLM综述MultiModal Large Language Models

note(一)现有的 MM-LLM 的趋势:(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS);(3) 实施多样化模态扩展(例如,BLIP-2 → X-LLM 和 InstructBLIP→X-In

2024-06-02 13:05:46 3656 8

原创 【论文笔记】GraphSAGE:Inductive Representation Learning on Large Graphs(NIPS)

- GCN不能泛化到训练过程中没有出现的节点(即属于 $transductive$ 直推式学习,若加入新节点则需要重新训练模型),既然有新增的结点(一定会改变原有节点),那就没必要一定得到每个节点的固定表示。而GraphSAGE就是为了解决这种问题,利用Sample(采样)和Aggregate(聚合)两大核心步骤,通过利用学习到的聚合函数,得到一个新节点的表示。- 本文先介绍GraphSAGE向前传播过程(生成节点embedding),不同的聚合函数设定,然后介绍无监督学习和有监督学习的损失函数和参数学习

2021-10-06 21:11:58 2075 13

原创 【LLM】DeepResearch系列(Search-R1、Search-o1、R1-Searcher)

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning(Search-R1:利用强化学习训练LLM进行推理并利用搜索引擎)。这篇文章是关于如何训练大型语言模型(LLMs)有效地利用搜索引擎来增强其推理和文本生成能力。核心创新:允许LLM在推理过程中自主决定何时以及如何进行搜索。论文提出了一个名为SEARCH-R1的框架,该框架仅仅通过强化学习(RL)让LLM学习如何在逐步推理

2025-04-06 18:25:20 920

原创 【LLM】SuperCLUE-Project项目级代码生成评测

评测指标- 功能完整性 (60%):确保代码完全实现用户指令中描述的所有功能。- 代码质量 (28%):评估代码在效率、可读性和安全性方面的表现。具体包括: - a.效率 (12%):代码在资源占用、DOM操作、数据库/大数据集处理、计算或API调用等方面是否足够优化。 - b.可读性 (8%):代码是否实现了 (1) 采用清晰的命名和一致的格式;(2) 合理地将代码库划分为模块;(3) 保持清晰的项目结构。 c.安全性 (8%):代码是否 (1) 无明显的安全漏洞;(2) 能够有效处理基本

2025-04-05 21:59:36 455

原创 【图解Agent】A Visual Guide to LLM Agents

推理Reasoning增强推理能力:(1)通过提示工程,可以创建LLM应该遵循的推理过程示例。提供示例(也称为少量样本提示)是引导LLM行为的好方法。Chain-of-thought也可以通过零样本提示启用,而无需任何示例,只需简单地说“让一步一步思考”。(2)在训练LLM时,可以给它足够数量包含类似思维示例的数据集,或者LLM可以发现自己的思维过程。一个很好的例子是DeepSeek-R1,其中使用奖励来引导思维过程的使用。![在这里插入图片描述](https://i-blog.csdnimg.cn

2025-03-30 17:53:35 1082

原创 【读书笔记】华为《从偶然到必然》

一、IPD(集成产品开发)体系:从偶然到必然的基石华为通过引入IBM的IPD体系,构建起可复制的高质量研发管理模式。其核心逻辑在于:- 客户需求导向:将“技术导向”转变为“客户需求导向”,通过市场洞察定义产品方向。- 跨部门协同:组建跨职能团队(如PDT),打破部门墙,实现研发、市场、销售等环节的协同。- 结构化流程:定义清晰的开发阶段(如概念、计划、开发、验证、发布),确保“做正确的事”与“正确地做事”。- 比喻厨师团队:市场人员(买菜)、研发人员(切菜)、销售人员(端菜)组队合作。# 二、

2025-03-23 19:53:59 1009

原创 【LLM】Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models

Long CoT 的出现现象:研究表明,上下文示例能够引导模型生成推理链,标准化推理链的生成过程。通过实验发现,仅保留逻辑结构的上下文示例也能实现与完整示例相似的性能,强调了 Long CoT 在推理中对逻辑结构的模仿能力。• 推理边界的限制:研究指出,RLMs 在推理任务中存在性能上限,当任务复杂度超过模型的推理边界时,性能会下降。例如,在代码生成任务中,模型在处理复杂逻辑时会遇到困难。此外,模型的输入长度也会影响其推理能力。• 过度思考现象(Overthinking Phenomenon):研

2025-03-23 13:45:24 618

原创 解决报错RuntimeError: r.nvmlDeviceGetNvLinkRemoteDeviceType_ INTERNAL ASSERT FAILED at “../c10/cuda/driv

# 一、问题描述报错如下,大部分报错解决贴都是说torch和cuda版本不一致会出现这个错误:```pythonRuntimeError: r.nvmlDeviceGetNvLinkRemoteDeviceType_ INTERNAL ASSERT FAILED at "../c10/cuda/driver_api.cpp":27, please report a bug to PyTorch. Can't find nvmlDeviceGetNvLinkRemoteDeviceType: /home

2025-03-22 16:34:53 322

原创 【LLM】文心大模型4.5和文心大模型X1

# 一、文心大模型4.5模型链接:https://yiyan.baidu.com- 文心大模型4.5是百度自主研发的新一代原生多模态基础大模型,通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。技术亮点:◎ FlashMask动态注意力掩码:加速大模型灵活注意力掩码计算,有效提升长序列建模能力和训练效率,优化长文处理能力和多轮交互表现;◎ 多模态异构专家扩展技术:根据模态特点构建模态异构专家,结合

2025-03-16 12:02:47 640

原创 【RS】OneRec快手-生成式推荐模型

本文提出了一种名为 OneRec 的统一生成式推荐框架,旨在替代传统的多阶段排序策略,通过一个端到端的生成模型直接生成推荐结果。OneRec 的主要贡献包括:编码器-解码器结构:采用稀疏混合专家(MoE)架构扩展模型容量,提升对用户兴趣的建模能力。会话式生成方法:与传统的逐点预测不同,OneRec 提出会话式生成方法,生成整个推荐列表,更好地捕捉上下文信息。迭代偏好对齐模块:结合直接偏好优化(DPO),通过奖励模型(RM)生成偏好数据,优化生成结果。实验表明,OneRec 在大规模工业数据集

2025-03-15 22:05:58 1347

原创 ICLR2025 | SLMRec: 重新思考大语言模型在推荐系统中的价值

问题背景:序列推荐(SR)任务旨在预测用户可能的下一个交互项目。近年来,大型语言模型(LLMs)在SR系统中表现出色,但它们巨大的规模使得在实际平台中应用变得低效和不切实际。研究动机:论文探讨了在SR领域中LLMs的必要性,以及是否存在模型规模和性能之间的不一致性。研究发现LLMs的许多中间层是冗余的。方法提出:基于上述发现,论文提出了一种名为SLMRec的方法,该方法采用简单的知识蒸馏技术来增强小型语言模型(SLMs)在SR任务上的性能。实验设计:论文在大规模行业数据集上进行了广泛的实验,以评

2025-03-15 20:59:39 1076

原创 【LLM】kimi 1.5模型架构和训练流程

语言数据涵盖五个领域:英语、中文、代码、数学推理和知识。多模态数据,包括图像描述、图文交错[^1]、OCR数据、知识以及问答数据集,使我们的模型能够获得视觉 - 语言能力。严格的质量控制确保了整个预训练数据集的相关性、多样性和平衡性。## SFT训练100w文本sft数据(任务具体分布见图)和100w多模态sft数据(没说具体分布,光列任务),通过一些 infra 的优化,先训 32k,再训 128k。- 非推理任务:包括问答、写作和文本处理,首先通过人工标注构建了一个种子数据集。这个种子数据集用

2025-03-09 15:35:22 797

原创 【LLM】阿里QwQ推理模型

QwQ-32B模型:https://huggingface.co/Qwen/QwQ-32B使用RL训练,没使用传统的奖励模型,使用数学答案检查器、代码执行器等规则奖励。指标和ds基本持平:![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/577da2e96f834735b3e86b7f5e74f594.png)# Reference[1] https://huggingface.co/Qwen/QwQ-32B[2] https://qwenlm.

2025-03-09 14:57:52 229

原创 【Agent】Coze个人智能体助手搭建(agent | workflow)

工作流是全局的,智能体是局部的。- 适合workflow的场景的特点: - (1)重复性工作多 :业务中的任务或流程高度重复。 - (2)业务流程固定 :步骤相对固定,且具有标准化的操作流程。- coze工作流支持通过可视化的方式,对插件、大语言模型、代码块等功能模块进行组合,从而实现复杂、稳定的业务流程编排。当目标任务场景包含较多的步骤,且对输出结果的准确性、格式有严格要求时,适合配置工作流来实现。@[toc]# 一、Agent和工作流的区别智能体(AI Agent)

2025-03-09 14:46:30 1132

原创 【LLM】From System 1 to System 2 推理LLM综述

(1)结构搜索:- 推理大语言模型旨在通过模仿人类推理的深思熟虑和系统性来实现高精度和深度。然而,尽管最近取得了进展,当前的基础大语言模型在解决复杂推理任务时仍面临固有的局限性。这些局限性源于它们缺乏模拟环境状态的内部世界模型,无法预测推理路径的长期结果,以及无法根据未来状态或奖励迭代改进推理步骤。- 蒙特卡洛树搜索(MCTS)通过提供一个结构化框架来系统地探索和评估推理路径,有效地解决了这些挑战。它通过构建一个推理树来操作,其中每个节点代表一个推理状态,行动通过考虑潜在的下一步来扩展树。通过模拟未来状

2025-03-02 15:29:05 684

原创 【LLM】DeepSeek开源技术汇总

一、FlashMLA:MLA解码内核二、DeepEP:针对MoE和EP的通信库三、DeepGEMM:FP8 通用矩阵乘法(GEMM)库四、DualPipe、EPLB:双向管道并行算法五、3FS:一种高性能分布式文件系统

2025-02-28 22:50:36 1274

原创 【LLM】增强大模型推理能力的四种范式

增强大模型推理能力的四种范式:推理时间扩展、纯强化学习(RL)、SFT+RL、蒸馏(distillation) 。其实这几种方法本质就是SFT+RL:低成本做事就直接推理时间扩展,稍微肯付出成本就蒸馏SFT,顺便搞点高质量COT SFT数据高级点就先用GRPO等RL学习推理能力,在前面也能加个冷启动SFT。但RL在较小模型可能不奏效最简单的方式其实是推理时间扩展或者蒸馏,但是这个其实的成功率,其实还是依赖于基座模型本身。小模型直接进行RL未必奏效,将DeepSeek-R1-Zero中相同的纯RL方法

2025-02-23 16:48:09 974

原创 【LLM】R1复现项目(SimpleRL、OpenR1、LogitRL、TinyZero)持续更新

(1)未来的工作需亟待解决:支持大规模 RL 训练(PPO、GRPO 等)的开源基础框架用于稳定训练的 GRPO 训练超参的自动化调优RL 训练数据的配比(难度、领域、任务等)基于 Instruct 模型训练 R1 时,高质量 long CoT 的数据获取合适的惩罚函数设计以保证 CoT 思考链质量不退化(2)应用在业务落地时,需要考虑:模型在给定的 prompt 下,结合预训练的基本知识能否正确给出正确的推理结果。任何业务中的「潜规则」都需要显式地定义在 prompt 中,并尽可能避免与

2025-02-23 02:02:52 2655

原创 字节LLM未来五大研究方向

Seed Edge 5 大长期研究方向,不会像迭代模型那样追求快速出成果: 1、 下一代推理:探索更高效且更通用、提升模型推理能力的方法。 2、 下一代感知:找到统一生成和理解表示的方法,表示和压缩真实世界,构建 “世界模型”。 3、 软硬一体的模型设计:从软硬一体出发,探索 Transformer+GPU 之外的模型设计,发挥下一代硬件的能力。 4、 下一代范式:在反向传播、Transformer 架构、预训练 + 对齐的模式之外,探索更高效的模型结构和学习方法。 5、 下一代 Sca

2025-02-23 01:09:18 208

原创 【MLLM】GRPO在多模态LLM的应用

# note- VLM-R1: A stable and generalizable R1-style Large Vision-Language Model。域外数据集上性能比SFT要好- Open-R1-Video视频理解模型:为视频理解任务引入R1范式,开源训练代码和数据,用视频、查询和答案,使用GRPO训练,提升模型推理能力@[toc]# 一、VLM-R1: A stable and generalizable R1-style Large Vision-Language Model

2025-02-23 01:04:35 921

原创 【LLM】O1/R1系列LLM数据篇

关于思维链推理的10开源数据集:目前开源的数据主要有如下:1、Magpie-Reasoning-V2数据集,其中包含DeepSeek-R1生成的250K思路链推理样本,这些示例涵盖了数学推理、编码和一般问题解决等各种任务。https://huggingface.co/datasets/Magpie-Align/Magpie-Reasoning-V2-250K-CoT-Deepseek-R1-Llama-70B2、Dolphin-R1,包含80万个样本的数据集,其中的数据来自DeepSeek-R1和

2025-02-09 23:07:18 975 1

原创 【LLM】DeepSeek R1训练成本降低分析篇

DeepSeek-R1 在DeepSeek-R1-Zero基础上,借助冷启动数据和多阶段训练(==增强推理过程可读性、增强面向通用指令的推理能力==),进一步提升了模型性能@[toc]# 一、DeepSeek R1训练流程回顾- DeepSeek-R1-Zero 作为纯强化学习的成功实践,证明了大语言模型在无监督数据下通过强化学习发展推理能力的可能性;- DeepSeek-R1 在此基础上,借助冷启动数据和多阶段训练(==增强推理过程可读性、增强面向通用指令的推理能力==),进一步提升了模型性

2025-02-09 17:09:27 726

原创 【LLM】为何DeepSeek 弃用MST却采用Rejection采样

在提升大语言模型(LLM)推理能力时,拒绝采样(Rejection Sampling)和 马尔可夫搜索树(Markov Search Tree)是两个超强的技术。 # 拒绝采样 Rejection sampling🎯1. 概念模型生成多个候选答案,然后过滤掉不符合条件的,只保留“好”的结果。2. 原理- LLM 生成一堆候选答案(比如推理路径或解决方案)- 通过评分函数(比如正确性、逻辑性)评估每个候选答案。- 不符合条件的答案被拒绝,最终选出最好的一个。3. 优点- 简单实现起来超

2025-02-05 23:12:53 1469

原创 【LLM-agent】(task6)构建教程编写智能体

# 一、功能需求功能:输入教程主题,然后自动生成完整的教程内容思路:先通过 LLM 大模型生成教程的目录,再对目录按照二级标题进行分块,对于每块目录按照标题生成详细内容,最后再将标题和内容进行拼接。分块的设计解决了 LLM 大模型长文本的限制问题。# 二、相关代码## (1)定义生成教程的目录 Action 类定义 `WriteDirectoryAction` 类,继承自 `BaseAction`。该类的主要功能是生成一个教程的目录结构。具体来说,它通过调用大语言模型(LLM)来根据给定的主题

2025-02-02 12:24:43 842

原创 【LLM-agent】(task5)构建哲学家多智能体

通过编排动作设置哲学家智能体的"示例任务",目的是让 Agent 更好地理解如何回答问题。主要包括==设置示例问题、定义思考过程、应用到所有哲学家==。建立了一个"先思考,后总结"的回答模式,这种方式相当于给AI提供了一个"样板",告诉它:"这就是我们期望你回答问题的方式"@[toc]# 一、构建智能搜索代理- Zigent 是一个基于 Agentlite 框架改进的智能代理开发框架。Agentlite 最初由 Salesforce AI Research 团队开发。Zigent的参考地址:htt

2025-02-01 17:13:58 1006

原创 【LLM-agent】(task4)搜索引擎Agent

# note - @[toc]# 一、搜索引擎Agent```pythonimport osfrom dotenv import load_dotenv# 加载环境变量load_dotenv()# 初始化变量base_url = Nonechat_model = Noneapi_key = None# 使用with语句打开文件,确保文件使用完毕后自动关闭env_path = "/Users/guomiansheng/Desktop/LLM/llm_app/wow-age

2025-02-01 12:05:30 1001

原创 【LLM-agent】(task3)数据库对话Agent和RAG接入Agent

# note - 数据库对话Agent- RAG接入Agent@[toc]# 一、数据库对话Agent```pythonimport osfrom dotenv import load_dotenv# 加载环境变量load_dotenv()# 初始化变量base_url = Nonechat_model = Noneapi_key = None# 使用with语句打开文件,确保文件使用完毕后自动关闭env_path = ".env.txt"with open(env

2025-02-01 11:36:36 435

原创 【LLM-agent】(task2)用llama-index搭建AI Agent

# note - LlamaIndex 实现 Agent 需要导入 `ReActAgent` 和 `Function Tool`,循环执行:推理、行动、观察、优化推理、重复进行。可以在 `arize_phoenix` 中看到 agent 的具体提示词,工具被装换成了提示词- ReActAgent 使得业务自动向代码转换成为可能,只要有 API 模型就可以调用,很多业务场景都适用,LlamaIndex 提供了一些开源的工具实现,可以到官网查看。- 虽然 Agent 可以实现业务功能, 但是一个 Agen

2025-02-01 10:11:07 1668 1

原创 【LLM】Ollama框架入门指北

# note- Ollama是一个开源框架,专门设计用于在本地运行大型语言模型。它的主要特点是将模型权重、配置和数据捆绑到一个包中,从而优化了设置和配置细节,包括GPU使用情况,简化了在本地运行大型模型的过程。- Ollama提供了对模型量化的支持,这可以显著降低显存要求。例如,4-bit量化可以将FP16精度的权重参数压缩为4位整数精度,从而大幅减小模型权重体积和推理所需显存。这使得在普通家用计算机上运行大型模型成为可能。- Ollama框架还支持多种不同的硬件加速选项,包括纯CPU推理和各类底层计

2025-01-31 19:59:23 1562

原创 【LLM-agent】(task1)简单客服和阅卷智能体

# note - 一个完整的agent有模型 (Model)、工具 (Tools)、编排层 (Orchestration Layer)- 一个好的结构化 Prompt 模板,某种意义上是构建了一个好的全局思维链。 如 LangGPT 中展示的模板设计时就考虑了如下思维链:Role (角色) -> Profile(角色简介)—> Profile 下的 skill (角色技能) -> Rules (角色要遵守的规则) -> Workflow (满足上述条件的角色的工作流程) -> Initializatio

2025-01-31 19:16:36 920

原创 【LLM】DeepSeek-R1-Distill-Qwen-7B部署和open webui

# note- DeepSeek-R1-Distill-Qwen-7B 的测试效果很惊艳,CoT 过程可圈可点,25 年应该值得探索更多端侧的硬件机会。@[toc]# 一、下载 Ollama访问 Ollama 的官方网站 https://ollama.com/library/deepseek-r1, 根据系统提示下载适合自己电脑的版本。![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/c615a1c7e6574f6b95222003c60865df

2025-01-30 15:56:24 7863 1

原创 【LLM】deepseek多模态之Janus-Pro和JanusFlow框架

# note @[toc]# 一、Janus-Pro:解耦视觉编码,实现多模态高效统一anus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。## 技术亮点- 视觉编码解耦:采用独立的路径分别处理多模态理解与生成任务,有效解决视觉编码器在两种任务中的功能冲突。- 统一 Transfo

2025-01-29 01:14:58 1765 2

原创 【LLM】Deepseek R1模型之多阶段训练

# note - 创新点:deepseek r1通过纯强化学习(RL)自主激发模型的推理能力,并结合蒸馏技术实现高效迁移- R1模型 - DeepSeek-R1-Zero 作为纯强化学习的成功实践,证明了大语言模型在无监督数据下通过强化学习发展推理能力的可能性; - DeepSeek-R1 在此基础上,借助冷启动数据和多阶段训练,进一步提升了模型性能,达到与 OpenAI-o1-1217 相媲美的水平,且在蒸馏小模型上也取得了优异成果。- 蒸馏模型贡献:开源DeepSeek-R1-Zero、Dee

2025-01-28 00:19:59 6112 2

原创 【LLM-RL】强化对齐之GRPO算法和微调实践

论文:DeepSeekMath:PushingtheLimitsofMathematicalReasoninginOpenLanguageModels(https://arxiv.org/pdf/2402.03300)GRPO在DeepSeekV2中采用了,GRPO在训练过程中,不需要ValueModel,因此也能够减少RL训练过程中的资源消耗。

2025-01-19 13:54:18 2759

原创 【LLM】Openai-o1及o1类复现方法

作为一个推理模型,QwQ-32B-preview的综合表现已全面超越常规模型,如GPT-4o和Claude3.5Sonnet。一个是学习,学习利用搜索生成的数据进行策略改进。过程奖励模型(PRM)比结果奖励模型(ORM)更适合复杂的推理任务,因为它不仅奖励最终结果,还奖励中间步骤。试用链接:https://huggingface.co/spaces/Qwen/QwQ-32B-preview。官方博客:https://qwenlm.github.io/zh/blog/qwq-32b-preview/

2025-01-18 23:25:06 1190

原创 【LLM】GLM-Zero初版模型GLM-Zero-Preview和o1推理

#一、深度推理模型GLM-ZeroGLM-Zero的初代版本GLM-Zero-Preview,这是智谱首个==基于扩展强化学习技术训练==的推理模型智谱-深度推理模型GLM-Zero-预览版上线使用地址:https://chatglm.cn/share/FRAWwGLM-Zero-Preview专注于增强模型推理能力,擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升。其

2025-01-18 22:48:37 387

原创 【LLM】大模型能力的相关等级分类

# OpenAI 提出的等级标准:第一级:聊天机器人,具有会话语言的人工智能第二级:推理者,解决人类水平问题的人工智能第三级:代理,能够代表用户采取行动的人工智能第四级:创新者,能够帮助发明的人工智能第五级:组织者,能够完成组织工作的人工智能# Agent相关的等级分类:清华发的Personal LLM Agents: Insights and Survey about the Capability, Efficiency and Security链接:https://arxi

2025-01-06 21:02:45 421

原创 【LLM-Agent】Building effective agents和典型workflows

- Anthropic的工程经验: - 大道至简,尽量维护系统的简洁; - 尽量让过程更加透明(因为你依赖的是LLM的决策,如果只看输出不看过程,很容易陷入难以debug的情况); - 对LLM需要调用的工具,尽可能地好好进行工具说明和测试。@[toc]# 一、构建块、工作流和Agentworkflows是人来定义明确的规则和流程,然后中间步骤由LLM来执行;但是 agents 是为了更加灵活地处理某些任务,且决策是由模型决定的,而不是预定义的规则。当需要更多复杂性时,工作流可以为明

2025-01-04 21:11:53 1265

原创 【LLM】deepseek v3模型和MiniMax-01的对比

#note-DeepSeek-V3是一个混合专家(MoE)语言模型,整体参数规模达到671B,其中每个token激活的参数量为37B。评估结果表明,DeepSeek-V3在性能上超越了其他开源模型,并能够与主流闭源模型相媲美。-基于DeepSeek-V2,团队采用了多头潜在注意力(MLA)和DeepSeekMoE架构,以实现高效推理和经济的训练。模型在延续MLA和DeepSeekMoE架构优势的基础上,创新性地提出了无辅助损失负载均衡策略,并引入多token预测训

2025-01-04 16:17:50 1561

原创 【LLM】OpenAI 的DAY12汇总和o3介绍

# note- o3 体现出的编程和数学能力,不仅达到了 AGI 的门槛,甚至摸到了 ASI(超级人工智能)的边。# Day 1:o1完全版,开场即巅峰12天发布会的开场即是“炸场级”更新——o1完全版。相比此前的预览版本,o1实现了质的飞跃。在国际数学奥林匹克预选赛题目(AIME 2024)和编程能力测试(Codeforces)中,o1的表现分别提升了50%,复杂问题处理的错误率下降了34%。此外,多模态识别的加入,让o1的应用场景成倍增长。新增的功能使其能够处理图像和文本的综合任务,例如医

2024-12-28 17:21:09 1170

基于高阶和时序特征的图神经网络社会推荐研究

基于高阶和时序特征的图神经网络社会推荐研究

2023-04-02

EdgeRec边缘计算在推荐系统的应用

EdgeRec边缘计算在推荐系统的应用

2022-02-24

4-消息传递图神经网络.pdf

4-消息传递图神经网络.pdf

2021-06-19

常用算法总结C&C++.pdf

常用算法总结C&C++.pdf

2021-01-14

Python思维导图.rar

python思维导图,助力学习python知识体系,包含基础知识、列表元组、面向对象模块、数据类型、文件对象、字符串、字典集合等等python知识思维导图

2020-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除