- 博客(956)
- 资源 (25)
- 收藏
- 关注

原创 PyTorch - 高效快速配置 Conda + PyTorch 环境 (解决 segment fault )
在配置算法项目时,因网络下载速度的原因,导致默认的 conda 与 pytorch 包安装缓慢,需要配置新的 conda 与 pip 源,以及下载安装 pytorch 环境。
2023-11-17 14:51:37
1044

原创 什么是热爱编程
看到下文, 感觉自己弱爆了, 要重新好好的”热爱编程”.95年的时候,我高中同学郭军买了一本Borland C++手册,我们两个人此后两年没机会碰真的电脑,没见过Tubro C更没见过Borland C++,生看这本书,看了两年,百看不厌。做不到,别轻易说,我热爱编程,热爱学习。97年,父母在高考前三天给我买了一台电脑,整个假期,全部在电脑面前度过,把VB的全部文档看完,自己学会VB,啃Delphi
2015-08-11 18:20:46
3289
8
原创 LLM - 构建大语言模型的 RAG 的基础流程 教程
RAG(Retrieval-Augmented Generation, 检索增强生成) 是结合信息检索与生成模型的技术,通过引入外部知识库来增强 大语言模型(LLM) 的生成能力。构建 RAG 流程主要包括:需要准备知识文档,转换为文本数据,进行预处理和索引,后续检索。使用嵌入模型,将文本数据转换为向量,存储在向量数据库中。当用户提出查询时,将查询内容,通过嵌入模型转换为向量,然后在向量数据库中,检索与查询最相关的知识片段。
2025-03-31 17:07:59
882
原创 LLM - 大模型服务中处理 Badcase 的 SOP 教程
在大模型服务中,处理 Badcase 是复杂且重要的任务。通过增加前置模块,过滤或处理显而易见的错误,例如敏感词检测、高频问题快速响应等。对于复杂的 Badcase,后处理模块对于模型输出,进行二次过滤或修正,比如模型可能产生的“幻觉”内容,进行过滤。调整 Prompt 也是有效的方法,通过优化输入的提示语,引导模型生成更符合需求的结果。如果 Badcase 的问题较为普遍且影响较大,也考虑对模型进行微调,通过有监督微调(SFT),让模型学习错误案例,提升整体性能。
2025-03-31 16:55:11
427
原创 LLM - 推理大语言模型 DeepSeek-R1 论文简读
DeepSeek-R1 通过强化学习,显著提升大语言模型推理能力,使用特殊的训练策略,其中 DeepSeek-R1-Zero 完全摒弃有监督微调(SFT),依靠强化学习训练,开创大模型训练中,跳过监督微调的先例。DeepSeek-R1 使用冷启动数据微调,通过多阶段强化学习,进一步优化推理能力。强化学习驱动的训练,不仅降低数据依赖,让模型在训练过程中,自发形成 "回头检查步骤" 的自我反思能力。
2025-03-31 15:34:20
711
原创 LLM - 大模型的 参数量/计算量/激活值/KV Cache 的详细分析 教程
在大模型中,参数量、计算量、激活值以及 KV Cache 是影响模型性能和资源消耗的关键因素。参数量通常与模型的复杂度成正比。计算量则与模型的前向和反向传播过程密切相关,Transformer 模型的计算量在使用 KV Cache 后会显著减少,因为 KV Cache 可以避免重复计算已经处理过的序列。激活值的显存占用在推理阶段尤为重要,其大小取决于序列长度、批次大小、隐藏层维度等因素,通常会随着批次大小的增加而显著增长。
2025-03-31 15:27:14
157
原创 LLM - 开源强化学习框架 OpenR1 的环境配置与训练参数 教程
OpenR1 是一个开源的强化学习框架,复现 DeepSeek-R1 的训练流程,为研究人员和开发者提供了一个完整的推理优化训练工具链。该项目由 Hugging Face 发起,通过开源的方式,详细展示了从知识蒸馏到强化学习,再到多阶段训练的完整过程。OpenR1 包含了用于训练和评估模型以及生成合成数据的脚本,支持 GRPO 训练、监督微调(SFT)等多种训练方法。它还封装了多个开源框架,如 TRL 和 distilabel,方便用户快速上手。
2025-03-31 15:21:47
612
原创 LLM - R1 强化学习 DRPO 策略优化 DAPO 与 Dr. GRPO 算法 教程
在强化学习算法中,DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization),通过解耦裁剪和动态采样策略提升模型的推理能力。Dr. GRPO (GRPO Done Right) 解决 GRPO 优化中的偏差问题,提出的改进方案,通过删除长度归一化项和标准差标准化项,解决 GRPO 可能导致错误响应逐渐变长的问题。
2025-03-26 16:23:16
817
原创 LLM - 多模态大模型(MLLM) 的 Step-by-Step 推理步骤奖励 (R1-VL) 教程
通过高质量 思维链(Chain-of-Thought, CoT) 的推理数据,有监督微调(Supervised Fine-Tuning) 增强多模态大语言模型(MLLM) 的推理能力,导致模型只是模仿成功的推理路径,而不理解错误的推理路径。将 MLLM 的推理能力,超越 被动(Passively) 模仿正确推理路径,使用 逐步分组相对策略优化(StepGRPO),通过 简单(simple)、有效(effective)、密集(dense) 的逐步奖励,自主提升推理能力。
2025-03-20 15:37:29
844
原创 LLM - 关于 KL 散度的一些理解
KL 散度 (Kullback-Leibler Divergence) 是衡量两个概率分布之间差异的一种非对称性度量工具。基于信息论原理,用于量化一个概率分布相对于另一个概率分布的信息损失程度。KL 散度值越小,表示两个分布越相似;反之,值越大,说明分布差异越大。
2025-03-11 21:31:32
941
原创 LLM - 大模型构建 Reasoning 推理数据集(OpenR1-Math-220k) 教程
使用蒸馏的推理(Reasoning)数据集,进行模型微调(SFT),即使不使用强化学习(RL),也可以提升大模型的效果。因此,构建合适的推理数据集,就可以训练不同的高性能推理模型。
2025-03-07 14:26:33
446
原创 LeetCode - 神经网络的 反向传播(Sigmoid + MSE) 教程
使用 Python + Numpy,设计带有 Sigmoid 激活函数 的神经网络,实现反向传播以更新神经元的权重和偏置。函数输入:特征向量(Input)、真实标签(Label)、初始权重(Weight)、初始偏置(Bias)、学习率(LR)、训练轮数(Epoch)。基于 均方误差(MSE) 损失,使用梯度下降法,更新权重和偏置。函数输出:更新后的权重、偏置、每一轮训练的 MSE 值列表,每个 MSE 值保留四位小数。
2025-03-07 10:53:58
163
原创 LLM - 使用 Unsloth 框架 轻量级 训练 GRPO 算法 教程
Unsloth 是开源 大语言模型(LLM) 微调框架,通过优化 计算步骤 和 GPU 内核,提升训练速度,减少内存使用,支持主流的 LLM 模型,在单 GPU 上可实现最高 10 倍、多 GPU 上最高 32 倍的加速效果,内存使用降低 70% 以上,支持动态 4 位量化技术,在不显著增加显存的情况下,提高模型精度,兼容 Hugging Face 生态系统,支持长上下文训练,提供多种模型导出格式。
2025-03-05 11:04:32
974
原创 LLM - 理解 DeepSeek 的 GPRO (分组相对策略优化) 公式与源码 教程(2)
GPRO,即 Group Relative Policy Optimization,分组相对策略优化,是 PPO(Proximal Policy Optimization, 近端策略优化) 的优化版本,省略优化 评论家模型(Critic Model),用于估计价值(Value Function Model),降低模型训练的资源消耗。
2025-02-14 19:59:45
1376
原创 LLM - 理解 DeepSeek 的 MLA (多头隐含注意力) 公式与源码 教程(1)
DeepSeek 的 MoE(Mixture-of-Experts) 和 MLA(Multi-Head Latent Attention) 是架构中的核心技术。MoE 通过混合专家机制,模型在处理任务时动态激活最相关的子网络(即“专家”),从而实现高效的资源利用。MLA 则专注于优化注意力机制,通过低秩联合压缩注意力键K和值V,显著降低推理过程中的 KV 缓存开销。MLA 结合旋转位置编码(RoPE),优化位置信息的处理。
2025-02-12 16:07:18
424
原创 LLM - 理解多模态大模型 Qwen2-VL 的 NDR 与 M-RoPE 教程
Qwen2-VL 是多模态语言模型,在自然语言处理和视觉理解领域展现出卓越的性能,通过深度融合语言和视觉信息,高效地处理图文混合输入,精准理解图像内容,以及生成与之相关的高质量文本描述。
2025-02-10 15:19:48
870
原创 LeetCode - Google 大模型10题 第2天 Position Embedding(位置编码) 3题
在 Transformer 架构中,位置编码(Position Embedding) 是辅助模型理解序列中元素顺序的关键机制。
2025-02-05 14:28:50
1169
原创 LeetCode - Google 大模型10题 第1天 Self-Attention(自注意力机制) 3题
GroupQueryAttention(分组查询注意力机制) 和 KVCache(键值缓存) 是大语言模型中的常见架构,GroupQueryAttention 是注意力机制的变体,通过将查询(Query)分组,每组与相同的键(Key)值(Value)交互,优化计算效率和性能,保持模型对于输入信息有效关注,减少计算资源的消耗,适用于处理大规模数据和复杂任务的场景。KVCache 是缓存机制,用于存储和快速检索键值对(KV),当模型处理新的输入(Q)时,直接从缓存中读取KV数据,无需重新计算。
2025-01-26 15:11:27
867
原创 LLM - 大模型 ScallingLaws 的预训练方案 教程(5)
使用 ScalingLaws 指导 100B 大模型的预训练方案,包括服务器资源、3D并行策略、Transformer架构、DeepNorm、混合精度策略、EGS策略、AdamW、WarmUp、GradientClipping、样本、位置编码等,使用大模型稳定和高效训练。
2025-01-25 15:47:24
1834
原创 LLM - 大模型 ScallingLaws 的指导模型设计与实验环境 教程(4)
使用 ScalingLaws 指导模型设计,验证模型效果,超过根据经验设计的模型,以及介绍模型的训练环境与超参数。
2025-01-23 14:56:26
1468
原创 LeetCode - Google 校招100题 第9天 Hard 题汇总 (12题)
经常编写算法和数据结构题目,可以系统地巩固基础知识,加深对于编程语言特性的理解,掌握更多高效的编程技巧,优化时间和空间复杂度,也有助于培养解决实际问题的能力,应对遇到的各种复杂情况,接触不同的思路和方法,拓宽思维视野,提升逻辑思维能力。
2025-01-23 10:43:52
524
原创 LLM - 大模型 ScallingLaws 的迁移学习与混合训练 教程(3)
在 PLM 的迁移学习中,预训练 CLM 迁移至 MLM,通过 迁移缩放法则(Transfer Scaling Laws),合理的分配训练资源,以达到性能最优。同时验证,混合训练(Mixing Training) CLM 与 MLM,不如从零开始训练。
2025-01-17 18:47:17
1398
原创 LLM - 大模型 ScallingLaws 的 CLM 和 MLM 中不同系数 教程(2)
在蛋白质大语言模型(PLM)方向,使用数据集约 200B Tokens (AA氨基酸),基于 C=6ND,以及 Loss 与 模型规模(N) 的 IsoFLOPs 曲线,确定 FLOPs 与 模型规模(N)、FLOPs 与 数据量(D) 之间的关系,构建 ScalingLaws 公式,验证不同目标 CLM(Causal Language Model) 与 MLM(Masked Language Model) 的系数差异。
2025-01-16 19:45:27
1037
原创 LLM - 大模型 ScallingLaws 的 C=6ND 公式推导 教程(1)
Scaling Laws (缩放定律) 是大模型领域中,用于描述 模型性能(Loss) 与 模型规模(N)、数据量(D)、计算资源(C) 之间关系的经验规律,揭示在大模型中,随着模型参数数量、数据集大小和计算资源的增加,模型性能的变化模式,指导更高效地分配资源,优化模型训练过程,实现更好的性能。这些规律不仅有助于预测不同规模模型的表现,还能为模型设计和训练提供理论依据,是推动大模型发展和应用的重要理论基础。
2025-01-16 16:17:02
1536
原创 LLM - Llama 3 的 Pre/Post Training 阶段 Loss 以及 logits 和 logps 概念
Llama 3 是 Meta 公司发布的开源大型语言模型,包括具有 80 亿和 700 亿参数的预训练和指令微调的语言模型,支持广泛的应用场景。在多个行业标准基准测试中展示了最先进的性能,特别是在推理、代码生成和指令遵循方面表现出色,超过了同等规模的商业模型。
2025-01-10 14:17:22
1660
原创 LLM - FlashAttention 的 Safe-Softmax 与 One-Pass Tiling 计算 教程
FlashAttention 是高效的 注意力机制(Attention) 算法,加速 Transformer 模型中的自注意力计算,显著减少内存占用。通过将输入分块,在每个块上执行注意力操作,从而减少对高带宽内存(HBM)的读写次数。FlashAttention 使用底层硬件的内存层次结构,如 GPU 的内存层次,提高计算速度和减少内存访问开销,保持注意力机制的精度,通过减少内存访问次数,实现更快的计算速度。
2025-01-06 15:01:07
363
原创 LLM - 计算大模型评估指标 BLEU 的工具 (NLTK/Evaluate) 教程
BLEU(Bilingual Evaluation Understudy),即双语评估替补,通过比较,机器翻译的句子和参考翻译句子之间的 n-gram (n元语法) 重叠情况来衡量翻译质量,也可用于评估大语言模型的输出质量。
2025-01-02 17:46:46
1079
原创 LLM - 使用 LLaMA-Factory 部署大模型 HTTP 多模态服务 教程 (4)
大模型的 HTTP 服务,通过网络接口,提供 AI 模型功能的服务,允许通过发送 HTTP 请求,交互大模型,通常基于云计算架构,无需在本地部署复杂的模型和硬件,就能够访问和使用。通过简单的 API 调用,执行各种任务,从而在各种应用中实现智能化,不仅提高模型的可访问性,还降低技术门槛。
2025-01-02 11:17:11
1275
原创 LLM - 放射性医疗领域的多模态 VQA-RAD 评估集(开源) 简介
VQA-RAD 数据集标注精细,维度丰富,图像来源于 Medpix (即美国的开源放射医学教案数据库)。在每个案例中,选择有代表性的一张图片,确保数据集中每张图片对应独特的病人。确保图片的质量,选择的每张图片都是人工审核,确保没有医学标记、结构足够清晰、以及文本信息可以描述图片。专业的临床医师,按照先自由提问再规范化,对于至少40张图片进行标注,最后,确认问题的类型。这些设计,使得问题保留自然语言的流畅性,同时,也符合数据利用的规
2024-12-27 11:24:02
876
原创 LeetCode - Google 校招100题 第8天 图(Graph) (2题)
图(Graph) 是复杂的数据结构,由节点和连接这些节点的边组成。有向无环图(DAG) 是一种特殊的图,其中的边具有方向性,且不存在环,这种结构常用于表示任务的依赖关系或层次结构。连通分量(Connected Component) 是指图中最大的节点集合,集合中的任意两个节点都可以通过路径相互到达,在分析图的连通性时至关重要。
2024-12-26 15:06:59
307
原创 LeetCode - Google 校招100题 第7天 序列(数据结构&贪心) (14题)
序列结构包括栈、字典和集合等,基于不同的数据存储和访问方式的数据结构。栈(Stack) 是一种 后进先出(LIFO) 的数据结构,支持 推入(append) 和 弹出(pop) 操作,常用于处理嵌套问题和回溯算法。字典(Map) 是一种基于键值对的存储结构,提供快速的查找、插入和删除操作,其效率通常与哈希表的实现有关。集合(Set) 是一种无序且元素唯一的数据结构,支持高效的成员检查、添加和删除操作,常用于去重和数学集合操作。
2024-12-26 14:55:02
609
原创 LeetCode - Google 校招100题 第6天 回溯法(Backtracking) (8题)
回溯法(Backtracking) 是一种 深度优先搜索(DFS) 策略,用于遍历或搜索所有可能路径。从根节点开始,沿着每一个分支深入探索,直到达到无法继续的节点,然后,回溯到上一个节点,尝试其他可能的分支。常用于解决组合问题、排列问题、划分问题等,核心思想是在探索过程中剪枝,一旦发现当前路径不可能产生有效的解,就立即回溯,尝试其他路径,能够系统地枚举问题的解空间,寻找所有可能的解决方案,或者在找到第一个可行解后停止。
2024-12-26 14:24:25
357
原创 LeetCode - Google 校招100题 第5天 双指针(Two Pointers) (11题)
双指针(Two Pointers) 是数据结构中一种常用的算法策略,涉及到使用两个指针(left and right)来遍历或处理数据结构,用于解决各种问题,如移除重复元素、合并两个有序数组、反转数组部分区域、检测循环链表等。优势在于其简单性和效率,尤其是在处理线性数据结构时,调整两个指针的相对位置和移动速度来实现复杂的操作,通常只需要一次遍历即可完成任务,时间复杂度为O(n)。
2024-12-26 14:07:14
472
原创 LLM - 多模态大模型的开源评估工具 VLMEvalKit 部署与测试 教程
VLMEvalKit 是大型视觉语言模型设计的开源评估工具包,由 Open Compass 团队开发,它支持一键式评估体验,无需繁琐的数据准备工作,能够对多种视觉语言模型进行评估,并覆盖了多样化的任务场景。
2024-12-09 17:21:03
1108
原创 LLM - 开源视觉多模态 LLaVA-CoT(o1) 深度推理模型 测试与源码 教程
LLaVA-CoT,是 思维链(Chain-of-Thought, CoT) 的视觉语言模型,通过自主的多阶段推理,提升系统化和结构化推理能力,实现深度思考,包含总结摘要(SUMMARY)、视觉解释(CAPTION)、逻辑推理(REASONING)、结论生成(CONCLUSION) 等 4 个阶段,提出 推理时阶段级束搜索(Inference-Time Stage-Level Beam Search) 方法,以实现有效的推理时扩展,结果表明在多模态推理基准测试中,超越基础模型和其他更大、甚至是闭源的模型。
2024-12-07 06:47:23
1543
原创 LLM - 大模型推荐系统范式 生成式推荐器(Generative Recommenders) 简读
生成式推荐器(Generative Recommenders, GRs) 是 大模型推荐系统范式,将推荐问题重新定义为序列直推任务,设计新的架构 层次序列直推单元 HSTU(Hierarchical Sequential Transduction Units),以应对高基数、非静态的推荐数据流。HSTU 在合成数据集和公共数据集上的 NDCG 性能比基线高出 65.8%,在处理 8192 长度序列时比基于 FlashAttention2 的 Transformer 快 5.3~15.2 倍。
2024-12-04 20:57:39
1122
原创 LLM - 大模型 LoRA 微调的超参数与参数量 教程
LoRA(Low-Rank Adaptation, 低秩适配),微调预训练大模型的技术,即参数有效微调(Parameter-Efficient Fine-tuning, PEFT),在不改变原始权重的基础上,引入可训练的 低秩分解矩阵 调整模型参数,适应特定任务或领域。冻结预训练模型的参数,在 Transfomer 的每一层中,加入可训练的旁路矩阵(低秩可分离矩阵),将旁路输出与初始路径输出相加,输入到网络当中,只训练这些新增的旁路矩阵参数。
2024-11-28 16:42:41
1500
原创 LLM - 使用 LLaMA-Factory 微调 Qwen2-VL DPO(LoRA) 图像数据集 教程 (3)
DPO(Direct Preference Optimization, 直接偏好优化) 是在 RLHF 阶段中使用的优化算法,通过直接利用人类的偏好数据来优化策略模型,无需定义明确的奖励函数或进行复杂的强化学习过程。DPO的优化目标是,增加偏好样本的对数概率与减小非偏好样本响应的对数概率,结合动态加权机制,以避免仅使用概率比目标时遇到的模型退化问题。
2024-11-26 21:50:14
2203
原创 LLM - 大模型训练 RLHF 阶段的 PPO/DPO 策略公式与源码 教程
在大模型的指令微调之后,模型输出可能不符合人类偏好,需要使用强化学习优化模型(RLHF),而奖励模型(RM)是强化学习的重要组件,需要预先训练奖励模型。
2024-11-26 15:16:47
1402
2
原创 LLM - 计算 大语言模型(多模态) 的参数量(Qwen2-VL、Llama-3.1) 教程
影响 (多模态)大语言模型 参数量的主要网络模块,即 Linear、Embedding、Norm(LayerNorm or RMSNorm) 等 3 个部分,其中,多模态大模型还包括 Conv3D,手动计算参数量,与 PyTorch 直接计算保持一致。
2024-11-13 18:37:40
1635
MMseqs2最新版本可执行文件
2023-07-27
冷冻电镜的低通滤波算法
2022-08-02
craft_models.zip
2021-05-27
ICDAR_2015.zip
2021-05-27
Solidity Programming Essentials
2018-06-09
Earthquake - Android Studio 代码
2014-03-24
ContactPicker(选择联系人) - Android
2014-03-20
Compass-Android
2014-03-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人