自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(139)
  • 资源 (7)
  • 收藏
  • 关注

原创 Megatron-LM中的deepseek-v3实现

Megatron-LM:https://github.com/NVIDIA/Megatron-LM/tree/main使用此仓库构建的著名的库也有很多,如:入口定义文件:Megatron-LM-main\examples\post_training\modelopt\conf\deepseek-ai\DeepSeek-R1.shMegatron 在推理阶段通过多种技术优化推理性能,包括模型并行化和内存优化。它可以将超大规模模型的权重分配到多个 GPU 上,从而保证推理速度。此外,针对推理中的显存占用问题,M

2025-03-29 21:53:52 804

原创 VLLM x Ascend框架

备注:vllm安装失败,报ERROR: Could not build wheels for vllm, which is required to install pyproject.toml-based projects。vllm-ascend 和 torch-npu 所需。torch-npu 和 vllm 所需。vllm-ascend 必需。vllm 和 vllm-当前版本依赖于未发布的版本。

2025-03-29 15:08:31 235

原创 大模型评测框架evalscope、openCompass

【LLM之评测】opencompass使用自定义接口与自定义数据集进行评测_opencompass 自定义数据集-优快云博客(1)新建custom_api.pymodels = [dict(],retry=3。

2025-03-29 13:38:04 834

原创 字节、清华AIR开源DAPO——学习笔记

此外,他们还提出了「Soft Overlong Punishment」(等式 13),这是一种长度感知惩罚机制,旨在塑造截断样本的奖励。在这个区间内,响应越长,受到的惩罚就越大。使用该算法,该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分,优于同等规模的 DeepSeek-R1-Zero-Qwen-32B,同时 DAPO 版 Qwen2.5-32B 使用的训练步数还少 50%。首先,对于高质量的长样本来说,这种影响会阻碍模型学习其中与推理相关的模式的能力。

2025-03-23 13:43:00 942

原创 论文学习——SCoT+AtomThink

1. 原子步骤的来源数据集中的预先标注论文通过数据引擎构建了包含20k多模态数学问题和124k原子步骤标注的AMATH数据集。这些原子步骤是人工标注的最小语义单元(如“图像描述”“数据提取”“逻辑推导”等),用于训练模型理解如何分解问题。动态生成与组合在实际推理时,模型并不依赖固定的步骤模板,而是根据问题难度自主选择和组合原子步骤。简单问题可能仅需“变量定义”→“计算”→“结论”。复杂问题则可能需要“图像描述”→“知识调用”→“方程建立”→“逻辑推导”→“验证”等步骤。2. 推理过程的自主性。

2025-03-23 11:33:41 570

原创 AI-Researcher

通过从主要学术数据库(例如 arXiv、IEEE Xplore、ACM 数字图书馆和 Google Scholar)、代码平台(例如 GitHub、Hugging Face)和跨科学领域的开放数据集自动收集,系统地收集多个科学领域的综合研究材料。🚀 这个全自动系统消除了整个研究生命周期中人工干预的需要,实现了从最初的概念到最终出版的轻松无缝的科学发现。我们开发了一套全面、标准化的评估框架,以客观评估人工智能研究人员的学术能力和学术工作的质量,并整合了多项关键创新,以确保评估的全面性和可靠性。

2025-03-16 14:39:21 760

原创 信息压缩技术

背景:如果想将一篇文章,拆分成多段,然后组成多段信息组,每个信息组包括标题+片段内容。现在要求将进行信息组进行压缩到10*10的矩阵中,每个矩阵元素有10中表达方式,有什么算法。要求每篇文章的所有信息组,其编码形式是一样的。如果借助于大模型,该怎么做。

2025-03-16 14:06:41 1008

原创 论文翻译——Titans: Learning to Memorize at Test Time

重新审视我们对人类记忆的理解,它既不是一个统一的过程,也不服务于单一的功能(Cowan 2008)。事实上,记忆是由多个系统组成的联合体——例如,短期记忆、工作记忆和长期记忆——每个系统都服务于不同的功能,具有不同的神经结构,并且能够独立运行(Willingham 1997)。这一事实促使我们提出问题:(Q4)如何设计一个有效的架构,将不同的互连记忆模块整合在一起。最后,存储记忆是一个神经过程,需要对过去的抽象进行编码和存储。

2025-02-13 17:39:01 854

原创 智增增接口及聊天窗口

可以选择或输入模型名称。

2025-02-11 10:17:50 80

原创 Trl框架 SFT/GRPO训练+模板预测

注意:这里的必须按照trl的格式定义text字段,将提示词和答案包含进去2、GRPO训练注意自定义的俩个奖励函数的传参,这样就将answer字段传进来了。

2025-02-11 09:37:07 212

原创 llamafactory自定义数据列进行loss计算

在loss计算中,我们需要根据数据中的列进行计算,但发现这些列被移除了。这里可以移除不需要的列,保留需要的列。

2025-02-11 09:30:18 161

原创 DeepSeek v2/v3技术解读

v2论文:[2405.04434] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Modelv3论文:[2412.19437] DeepSeek-V3 Technical Reportv3源码:https://github.com/deepseek-ai/DeepSeek-V3我们提出了 DeepSeek-V2,一个强大的混合专家 (MoE) 语言模型,其特点是经济的训练和高效的推理。它包含 2360

2025-02-09 21:47:46 1409

原创 DeepSeek R1复现

UC伯克利博士生潘家怡和另两位研究人员在CountDown游戏中复现了DeepSeek R1-Zero,项目名为TinyZero。:通过强化学习(RL),验证了3B的基础语言模型能够自我验证和搜索,且成本不到30美金。,从而能够获得更高的分数。此外,还发现额外的指令微调(SFT)并非是必要的。

2025-02-06 10:51:15 1131

原创 论文解读——DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

英语和中文数学推理:我们在英语和中文基准上对我们的模型进行了全面评估,涵盖了数学问题从小学到大学水平。英语基准包括 GSM8K(Cobbe 等人,2021)),MATH(Hendrycks 等人,2021)),SAT(Azerbayev 等人,2023)),OCW 课程(Lewkowycz 等人,2022a)),MMLU-STEM(Hendrycks 等人,2020)。

2025-01-22 20:30:44 1400

原创 论文解读——DeepSeek-R1

生成反馈。

2025-01-22 11:35:26 7729

原创 大模型系列——推理能力增强 rStar-Math 论文笔记

我们提出rStart-Math来证明小型语言模型SLM可以与OpenAI O1的数学推理能力相媲美甚至超越,而无需从更高级的模型中蒸馏。rStart-Math通过蒙特卡洛树搜索MCTS来实现深度思考,其中一个数学策略SLM执行测试时搜索,该搜索由基于SLM的过程奖励模型引导。备注:搜索和一般的搜索如何结合?这里的引导指的是不同路径步骤的概率值。这种情况下,单个节点包含了什么? 和下围棋还是有区别的,如何构建这个模型,一个是输出具体位置,一个是输出节点,还是有区别点的。这种方式和普通推理增强又有何相似之处

2025-01-11 12:39:19 1218 1

原创 大模型系列——peft库中集成的最新微调方法

1、LoRA 提出后,出现了许多 LoRA 的变体,每种变体都针对特定的挑战进行了改进与优化。下图展示的是 LoRA 之后引入的一些最流行的微调技术:2、介绍了多个基于LoRA的改进方法,如AdaLoRA、rsLoRA、PiSSA、DoRA等,分别通过优化训练参数的分配、调节缩放因子、改进初始化等方式提高微调效果。实验结果表明,DoRA表现最佳,提供了模型训练中的最佳实践建议。

2025-01-02 14:36:27 793

原创 大模型系列——旋转位置编码和长度外推

return (在上面这段代码中,inv_freq对应的是各分量的旋转角度,长度为d/2这里的t为提前把所有可能的位置id 都先取好,并与对应的角度相乘,对应公式中的m,计算出来的矩阵freqs维度为(self.max_seq_len,d/2)。emb这样取每一行,即对应这个id下的所有m值。通过cat,拼接出来的emb后半部分和前半部分是一致的,维度变成d。

2024-12-30 15:31:43 1021 2

原创 Baichuan4-Finance技术报告

训练策略,使百川4-Finance-Base能够在不失去一般能力的情况下获取金融知识。经过有监督的微调和从人类反馈和人工智能反馈中进行强化学习后,聊天模型百川4-Finance能够解决各种金融认证问题和真实场景应用。参考PPO,设计了增量预训练阶段的训练方案。在持续的预训练阶段,我们提出了一种新颖的。金融领域效果大幅领先XuanYuan3。

2024-12-24 11:51:58 213

原创 大模型系列——投机解码:Prompt Lookup Decoding代码解读

官方代码见:GitHub - apoorvumang/prompt-lookup-decodingUPDATE 2: This method is now available in vLLM as well by setting 🥳UPDATE: This has been added to the transformers library. Please see this for a code example, or simply add to your call.TLDR: We modify

2024-12-20 14:31:29 1201

原创 大模型系列——论文解读:MEDUSA

这篇论文的标题是《MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads》,作者包括Tianle Cai、Yuhong Li、Zhengyang Geng、Hongwu Peng、Jason D. Lee、Deming Chen、Tri Dao,他们分别来自普林斯顿大学、Together AI、伊利诺伊大学香槟分校、卡内基梅隆大学和康涅狄格大学。

2024-12-20 11:38:13 350

原创 大模型系列——论文解读:eagle/eagle2

使用 Vicuna-68M 作为草稿模型的标准推测性采样也实现了显著的加速,但与其他方法相比,其训练开销要高得多。

2024-12-19 11:54:34 1690

原创 大模型系列——长度外推

这些技术方案代表了在处理无限长上下文方面的最新进展,它们通过不同的机制和技术创新,使得大型语言模型能够处理更长的上下文,这对于自然语言处理领域来说是一个重要的突破。NeurIPS 2024 | Transformer长度外推,全新位置编码DAPE大幅提升模型性能。链接:https://zhuanlan.zhihu.com/p/2873978129。商业转载请联系作者获得授权,非商业转载请注明出处。3.keynorm,增加模型识别距离能力。1.窗口局部关注+最终输出全局注意。3.长度内插入存在缩小距离分布。

2024-12-17 10:34:34 474

原创 大模型系列——论文解读:multi-token prediction

模型越大,该方法越有用,与类似的13B参数模型相比,我们的13B参数模型在HumanEval上解决了12 %的问题,在MBPP上解决了17 %的问题。我们在代码上训练范围或300M到13B的6个大小的模型,并在1000个样本的MBPP(Austin等,2021)和HumanEval(陈等,2021)的1000个基准上评估@1,10,100。我们支持了一个说明性的观点,即多标记预测的隐式权重取决于它们对文本延续的相关性,以及多标记预测损失的信息理论分解。本节中我们的直觉是,多标记预测减轻了。

2024-12-16 17:26:09 1773

原创 大模型系列——论文解读:DCA

为了保留全局信息,另一种观点是有效地推断出超出训练时遇到的序列长度。一些流行的技术,如基于Llama模型的位置插值(PI)和NTK-Aware RoPE,是对旋转位置编码(RoPE)的调整。然而,在无需训练的环境中,这些方法通常会导致PPL显著增加,尤其是在输入长度是训练长度两倍以上时。可以看出,当块数超过3个时,可能还是存在问题的, 部分位置会出现4,5,6,7,8,9,4,5,6,7,8,9序列。部分位置会出现1,2,3,4,5,6,4,5,6,7,8,9序列。

2024-12-16 14:16:22 394

原创 大模型系列——论文解读:MKGL

对于(头部实体,关系,尾部实体)三元组中,给定其中一个关系和实体,预测另外一个实体。:若把实体作为新的token扩展进原有词表,是不可行的,以WN18RR数据集为例,实体有4万多个。因此我们利用现有的tokens来生成新的KGL tokens.从而避免了为每个KG元素学习唯一嵌入的计算负担。1、对于输入embedding经过线性层降维2、把KGL的token转为统一的向量,如。

2024-12-16 11:11:56 951

原创 大模型系列——LLAMA-O1 复刻代码解读

使用的模型基座为:qq8933/OpenLongCoT-Base-Gemma2-2B,描述如下:This model is a fine-tuned version of google/gemma-2-2b-it on the OpenLongCoT dataset.This model can read and output o1-like LongCoT which targeting work with LLaMA-O1 runtime frameworks. gemma-2-2b-it描述如下:Ge

2024-11-07 18:04:32 1467

原创 大模型系列——AlphaZero/强化学习/MCTS

AlphaGo Zero无需任何人类历史棋谱,仅使用深度强化学习,从零开始训练三天的成就已远远超过了人类数千年积累的。

2024-10-29 14:39:04 2062

原创 大模型系列——幻觉

信息抽取模型可直接使用大模型本身来抽取,也可以使用现有的信息抽取模型 需要一个信息抽取模型 需要评测基准验证该评估方法的可行性,并与人类对齐 https://arxiv.org/pdf/1905.13322 待定⌛️ 效果一般,且需要依赖较为复杂且可靠的信息抽取模型。例如,大型语言模型(LLMs)可以从生成性反馈循环中显著受益,通过Milvus这样的开源向量数据库,可以高效地存储和检索编码文本数据语义的向量表示,从而创建一个不断学习和改进的动态系统。

2024-10-23 16:28:08 1988

原创 深度学习系列——RNN/LSTM/GRU,seq2seq/attention机制

另外,seq2seq中decoder,attention的更新机制没有说清楚(其实就是梯度下降更新权重即可),若使用attention机制,则h0'没有说清楚(需要看下源码部分)(1)对于这里面RNN的表示中,使用了输入x和h的拼接描述,其他公式中也是如此。注意:这里补充了对于RNN,UVW三个矩阵的使用细节,很多喜欢使用下面这张图。(2)各符号图含义如下。

2024-10-22 11:33:54 426

原创 MLC-LLM windows编译路径异常问题解决

编译过程中遇到两个问题,主要是windows路径问题引起。

2024-09-04 14:27:27 275

原创 NUS神经网络

论文片段:训练autoencoder decoder。我们对预训练模型的参数子集进行了微调,并将微调后的参数密集地保存为训练样本。然后,我们将这些参数S压扁为一维向量V = [v1,……,vk,……,vK],其中V∈R (K×D),D是子集参数的大小。然后,训练一个自动编码器来重建这些参数V。我们默认使用一个自动编码器和一个4层编码器和解码器。与正常的自动编码器训练相同,我们将V‘和V之间的均方误差(MSE)损失最小化如下其中v‘k是第k个模型的重构参数。

2024-02-26 10:03:43 1133

原创 从扩散模型基础到DIT

为了加快图像生成过程,Stable Diffusion 并不是在像素图像本身上运行扩散过程,而是在图像的压缩版本上运行。,具备更好的扩展性scaling(tokens扩展,网络深度扩展,增加参数量就能有更好的性能),有较低的t FID of 2.27。图示结构如下,可以看出输入含噪声图片,输出噪声。输入随机噪声和文本内容,通过多次预测并去除图片中的噪声后,最终生成清晰的图像。从它的训练和预测代码中,我们看到也使用了训练好的VAE模型。图中XT为T时刻的有噪图片,Xt-1为去噪后的图片。

2024-02-22 17:27:06 1307

转载 Redis 夺命31连问阅读笔记

大量缓存数据在同一时间过期(失效)方案:将缓存失效时间随机打散、设置缓存不过期2、缓存击穿缓存中的某个热点数据过期了,此时大量的请求访问了该热点数据,就无法从缓存中读取,直接访问数据库,数据库很容易就被高并发的请求冲垮,这就是缓存击穿的问题方案:互斥锁方案、不给热点数据设置过期时间3、缓存穿透当用户访问的数据,既不在缓存中,也不在数据库中,那么当有大量这样的请求到来时,数据库的压力骤增,这就是缓存穿透的问题。非法请求的限制、设置空值或者默认值、使用布隆过滤器快速判断数据是否存在问题?

2024-02-22 15:11:00 117

原创 Sora技术和影响分析

Sora最牛的地方,是完整的理解这个世界的知识,以前文生图和文生视频,都是在2D平面上对图形元素进行操作,没有适应物理定律,而这次,Sora实现了现实世界的理解和对世界的模拟两层能力,这样的视频产生才是真实的,跳出了2D范围模拟真实的物理世界,这是大模型最大的功劳,这样可以创造各领域里面的超级工具。在下面的示例中,中心的视频在左侧和右侧的相应视频之间进行插值。我们相信,Sora今天的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条很有前途的道路。

2024-02-18 16:43:01 1360

原创 linux 显卡驱动 cuda 离线安装

1、 安装显卡驱动:Download NVIDIA, GeForce, Quadro, and Tesla Drivers(1)注意选择对应的cuda版本,和系统版本,并下载(2)

2023-11-10 08:27:51 357

原创 TypeScript 项目依赖

TypeScript 作为 JavaScript 的超集,在开发过程中不可避免要引用其他第三方的 JavaScript 的库。模块是在其自身的作用域里执行,并不是在全局作用域,这意味着定义在模块里面的变量、函数和类等在模块外部是不可见的,除非明确地使用 export 导出它们。命名空间定义了标识符的可见范围,一个标识符可在多个名字空间中定义,它在不同名字空间中的含义是互不相干的。这样,在一个新的名字空间中可定义任何标识符,它们不会与任何已有的标识符发生冲突,因为已有的定义都处于其他名字空间中。

2023-08-16 10:56:51 447

原创 TypeScript 面向对象

TypeScript 接口定义如下:以下实例中,我们定义了一个接口 IPerson,接着定义了一个变量 customer,它的类型是 IPerson。customer 实现了接口 IPerson 的属性和方法。

2023-08-16 10:39:01 95

原创 TypeScript 基础

变量不要使用 name 否则会与 DOM 中的全局 window 对象下的 name 属性出现了重名。4种类型:var [变量名] : [类型] = 值;var [变量名] : [类型];var [变量名] = 值;var [变量名];

2023-08-16 10:14:18 163

转载 文章学习——深度统一粗排在淘宝主搜索的优化实践

2023-01-07 16:23:50 127

apache-jmeter-5.4.1.zip

apache-jmeter-5.4.1.zip 最新版,2C币下载

2021-09-02

mobilenet_v1_1.0_224.tar

tensoflow模型,mobilenetv1检查点文件,国内用户无法下载,这里分享下给大家

2018-03-08

inception_v3_2016_08_28.tar.gz

深度学习已经训练好的最新检查点文件inceptionv3,国内无法下载

2018-03-08

TensorFlow -- Sequence-to-Sequence Models.pdf

这是ten so r f lo w中sequence2sequence的那一章节,这里单独拿出来

2016-11-14

PCA和FLD两种不同方法实现人脸识别

利用PCA和FLD两种不同方法实现人脸识别,在matlab平台下完全可以运行,包含测试样本和训练样本,非常方便。

2014-07-11

电机控制论文

关于电机控制的一些东东,研一做的 ,喜欢的可以下载

2013-10-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除