ManonLegrand-优快云博客

原创 PyTorch - 高效快速配置 Conda + PyTorch 环境 (解决 segment fault )

在配置算法项目时，因网络下载速度的原因，导致默认的 conda 与 pytorch 包安装缓慢，需要配置新的 conda 与 pip 源，以及下载安装 pytorch 环境。

2023-11-17 14:51:37 1044

原创什么是热爱编程

看到下文, 感觉自己弱爆了, 要重新好好的”热爱编程”.95年的时候，我高中同学郭军买了一本Borland C++手册，我们两个人此后两年没机会碰真的电脑，没见过Tubro C更没见过Borland C++，生看这本书，看了两年，百看不厌。做不到，别轻易说，我热爱编程，热爱学习。97年，父母在高考前三天给我买了一台电脑，整个假期，全部在电脑面前度过，把VB的全部文档看完，自己学会VB，啃Delphi

2015-08-11 18:20:46 3289 8

原创 LLM - 构建大语言模型的 RAG 的基础流程教程

RAG(Retrieval-Augmented Generation, 检索增强生成) 是结合信息检索与生成模型的技术，通过引入外部知识库来增强大语言模型(LLM) 的生成能力。构建 RAG 流程主要包括：需要准备知识文档，转换为文本数据，进行预处理和索引，后续检索。使用嵌入模型，将文本数据转换为向量，存储在向量数据库中。当用户提出查询时，将查询内容，通过嵌入模型转换为向量，然后在向量数据库中，检索与查询最相关的知识片段。

2025-03-31 17:07:59 882

原创 LLM - 大模型服务中处理 Badcase 的 SOP 教程

在大模型服务中，处理 Badcase 是复杂且重要的任务。通过增加前置模块，过滤或处理显而易见的错误，例如敏感词检测、高频问题快速响应等。对于复杂的 Badcase，后处理模块对于模型输出，进行二次过滤或修正，比如模型可能产生的“幻觉”内容，进行过滤。调整 Prompt 也是有效的方法，通过优化输入的提示语，引导模型生成更符合需求的结果。如果 Badcase 的问题较为普遍且影响较大，也考虑对模型进行微调，通过有监督微调(SFT)，让模型学习错误案例，提升整体性能。

2025-03-31 16:55:11 427

原创 LLM - 推理大语言模型 DeepSeek-R1 论文简读

DeepSeek-R1 通过强化学习，显著提升大语言模型推理能力，使用特殊的训练策略，其中 DeepSeek-R1-Zero 完全摒弃有监督微调(SFT)，依靠强化学习训练，开创大模型训练中，跳过监督微调的先例。DeepSeek-R1 使用冷启动数据微调，通过多阶段强化学习，进一步优化推理能力。强化学习驱动的训练，不仅降低数据依赖，让模型在训练过程中，自发形成 "回头检查步骤" 的自我反思能力。

2025-03-31 15:34:20 711

原创 LLM - 大模型的参数量/计算量/激活值/KV Cache 的详细分析教程

在大模型中，参数量、计算量、激活值以及 KV Cache 是影响模型性能和资源消耗的关键因素。参数量通常与模型的复杂度成正比。计算量则与模型的前向和反向传播过程密切相关，Transformer 模型的计算量在使用 KV Cache 后会显著减少，因为 KV Cache 可以避免重复计算已经处理过的序列。激活值的显存占用在推理阶段尤为重要，其大小取决于序列长度、批次大小、隐藏层维度等因素，通常会随着批次大小的增加而显著增长。

2025-03-31 15:27:14 157

原创 LLM - 开源强化学习框架 OpenR1 的环境配置与训练参数教程

OpenR1 是一个开源的强化学习框架，复现 DeepSeek-R1 的训练流程，为研究人员和开发者提供了一个完整的推理优化训练工具链。该项目由 Hugging Face 发起，通过开源的方式，详细展示了从知识蒸馏到强化学习，再到多阶段训练的完整过程。OpenR1 包含了用于训练和评估模型以及生成合成数据的脚本，支持 GRPO 训练、监督微调（SFT）等多种训练方法。它还封装了多个开源框架，如 TRL 和 distilabel，方便用户快速上手。

2025-03-31 15:21:47 612

原创 LLM - R1 强化学习 DRPO 策略优化 DAPO 与 Dr. GRPO 算法教程

在强化学习算法中，DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization)，通过解耦裁剪和动态采样策略提升模型的推理能力。Dr. GRPO (GRPO Done Right) 解决 GRPO 优化中的偏差问题，提出的改进方案，通过删除长度归一化项和标准差标准化项，解决 GRPO 可能导致错误响应逐渐变长的问题。

2025-03-26 16:23:16 817

原创 LLM - 多模态大模型(MLLM) 的 Step-by-Step 推理步骤奖励 (R1-VL) 教程

通过高质量思维链(Chain-of-Thought, CoT) 的推理数据，有监督微调(Supervised Fine-Tuning) 增强多模态大语言模型(MLLM) 的推理能力，导致模型只是模仿成功的推理路径，而不理解错误的推理路径。将 MLLM 的推理能力，超越被动(Passively) 模仿正确推理路径，使用逐步分组相对策略优化(StepGRPO)，通过简单(simple)、有效(effective)、密集(dense) 的逐步奖励，自主提升推理能力。

2025-03-20 15:37:29 844

原创 LLM - 关于 KL 散度的一些理解

KL 散度 (Kullback-Leibler Divergence) 是衡量两个概率分布之间差异的一种非对称性度量工具。基于信息论原理，用于量化一个概率分布相对于另一个概率分布的信息损失程度。KL 散度值越小，表示两个分布越相似；反之，值越大，说明分布差异越大。

2025-03-11 21:31:32 941

原创 LLM - 大模型构建 Reasoning 推理数据集(OpenR1-Math-220k) 教程

使用蒸馏的推理(Reasoning)数据集，进行模型微调(SFT)，即使不使用强化学习(RL)，也可以提升大模型的效果。因此，构建合适的推理数据集，就可以训练不同的高性能推理模型。

2025-03-07 14:26:33 446

原创 LeetCode - 神经网络的反向传播(Sigmoid + MSE) 教程

使用 Python + Numpy，设计带有 Sigmoid 激活函数的神经网络，实现反向传播以更新神经元的权重和偏置。函数输入：特征向量(Input)、真实标签(Label)、初始权重(Weight)、初始偏置(Bias)、学习率(LR)、训练轮数(Epoch)。基于均方误差(MSE) 损失，使用梯度下降法，更新权重和偏置。函数输出：更新后的权重、偏置、每一轮训练的 MSE 值列表，每个 MSE 值保留四位小数。

2025-03-07 10:53:58 163

原创 LLM - 使用 Unsloth 框架轻量级训练 GRPO 算法教程

Unsloth 是开源大语言模型(LLM) 微调框架，通过优化计算步骤和 GPU 内核，提升训练速度，减少内存使用，支持主流的 LLM 模型，在单 GPU 上可实现最高 10 倍、多 GPU 上最高 32 倍的加速效果，内存使用降低 70% 以上，支持动态 4 位量化技术，在不显著增加显存的情况下，提高模型精度，兼容 Hugging Face 生态系统，支持长上下文训练，提供多种模型导出格式。

2025-03-05 11:04:32 974

原创 LLM - 理解 DeepSeek 的 GPRO (分组相对策略优化) 公式与源码教程(2)

GPRO，即 Group Relative Policy Optimization，分组相对策略优化，是 PPO(Proximal Policy Optimization, 近端策略优化) 的优化版本，省略优化评论家模型(Critic Model)，用于估计价值(Value Function Model)，降低模型训练的资源消耗。

2025-02-14 19:59:45 1376

原创 LLM - 理解 DeepSeek 的 MLA (多头隐含注意力) 公式与源码教程(1)

DeepSeek 的 MoE(Mixture-of-Experts) 和 MLA(Multi-Head Latent Attention) 是架构中的核心技术。MoE 通过混合专家机制，模型在处理任务时动态激活最相关的子网络(即“专家”)，从而实现高效的资源利用。MLA 则专注于优化注意力机制，通过低秩联合压缩注意力键K和值V，显著降低推理过程中的 KV 缓存开销。MLA 结合旋转位置编码(RoPE)，优化位置信息的处理。

2025-02-12 16:07:18 424

原创 LLM - 理解多模态大模型 Qwen2-VL 的 NDR 与 M-RoPE 教程

Qwen2-VL 是多模态语言模型，在自然语言处理和视觉理解领域展现出卓越的性能，通过深度融合语言和视觉信息，高效地处理图文混合输入，精准理解图像内容，以及生成与之相关的高质量文本描述。

2025-02-10 15:19:48 870

原创 LeetCode - Google 大模型10题第2天 Position Embedding(位置编码) 3题

在 Transformer 架构中，位置编码(Position Embedding) 是辅助模型理解序列中元素顺序的关键机制。

2025-02-05 14:28:50 1169

原创 LeetCode - Google 大模型10题第1天 Self-Attention(自注意力机制) 3题

GroupQueryAttention(分组查询注意力机制) 和 KVCache(键值缓存) 是大语言模型中的常见架构，GroupQueryAttention 是注意力机制的变体，通过将查询(Query)分组，每组与相同的键(Key)值(Value)交互，优化计算效率和性能，保持模型对于输入信息有效关注，减少计算资源的消耗，适用于处理大规模数据和复杂任务的场景。KVCache 是缓存机制，用于存储和快速检索键值对(KV)，当模型处理新的输入(Q)时，直接从缓存中读取KV数据，无需重新计算。

2025-01-26 15:11:27 867

原创 LLM - 大模型 ScallingLaws 的预训练方案教程(5)

使用 ScalingLaws 指导 100B 大模型的预训练方案，包括服务器资源、3D并行策略、Transformer架构、DeepNorm、混合精度策略、EGS策略、AdamW、WarmUp、GradientClipping、样本、位置编码等，使用大模型稳定和高效训练。

2025-01-25 15:47:24 1834

原创 LLM - 大模型 ScallingLaws 的指导模型设计与实验环境教程(4)

使用 ScalingLaws 指导模型设计，验证模型效果，超过根据经验设计的模型，以及介绍模型的训练环境与超参数。

2025-01-23 14:56:26 1468

原创 LeetCode - Google 校招100题第9天 Hard 题汇总 (12题)

经常编写算法和数据结构题目，可以系统地巩固基础知识，加深对于编程语言特性的理解，掌握更多高效的编程技巧，优化时间和空间复杂度，也有助于培养解决实际问题的能力，应对遇到的各种复杂情况，接触不同的思路和方法，拓宽思维视野，提升逻辑思维能力。

2025-01-23 10:43:52 524

原创 LLM - 大模型 ScallingLaws 的迁移学习与混合训练教程(3)

在 PLM 的迁移学习中，预训练 CLM 迁移至 MLM，通过迁移缩放法则(Transfer Scaling Laws)，合理的分配训练资源，以达到性能最优。同时验证，混合训练(Mixing Training) CLM 与 MLM，不如从零开始训练。

2025-01-17 18:47:17 1398

原创 LLM - 大模型 ScallingLaws 的 CLM 和 MLM 中不同系数教程(2)

在蛋白质大语言模型(PLM)方向，使用数据集约 200B Tokens (AA氨基酸)，基于 C=6ND，以及 Loss 与模型规模(N) 的 IsoFLOPs 曲线，确定 FLOPs 与模型规模(N)、FLOPs 与数据量(D) 之间的关系，构建 ScalingLaws 公式，验证不同目标 CLM(Causal Language Model) 与 MLM(Masked Language Model) 的系数差异。

2025-01-16 19:45:27 1037

原创 LLM - 大模型 ScallingLaws 的 C=6ND 公式推导教程(1)

Scaling Laws (缩放定律) 是大模型领域中，用于描述模型性能(Loss) 与模型规模(N)、数据量(D)、计算资源(C) 之间关系的经验规律，揭示在大模型中，随着模型参数数量、数据集大小和计算资源的增加，模型性能的变化模式，指导更高效地分配资源，优化模型训练过程，实现更好的性能。这些规律不仅有助于预测不同规模模型的表现，还能为模型设计和训练提供理论依据，是推动大模型发展和应用的重要理论基础。

2025-01-16 16:17:02 1536

原创 LLM - Llama 3 的 Pre/Post Training 阶段 Loss 以及 logits 和 logps 概念

Llama 3 是 Meta 公司发布的开源大型语言模型，包括具有 80 亿和 700 亿参数的预训练和指令微调的语言模型，支持广泛的应用场景。在多个行业标准基准测试中展示了最先进的性能，特别是在推理、代码生成和指令遵循方面表现出色，超过了同等规模的商业模型。

2025-01-10 14:17:22 1660

原创 LLM - FlashAttention 的 Safe-Softmax 与 One-Pass Tiling 计算教程

FlashAttention 是高效的注意力机制(Attention) 算法，加速 Transformer 模型中的自注意力计算，显著减少内存占用。通过将输入分块，在每个块上执行注意力操作，从而减少对高带宽内存(HBM)的读写次数。FlashAttention 使用底层硬件的内存层次结构，如 GPU 的内存层次，提高计算速度和减少内存访问开销，保持注意力机制的精度，通过减少内存访问次数，实现更快的计算速度。

2025-01-06 15:01:07 363

原创 LLM - 计算大模型评估指标 BLEU 的工具 (NLTK/Evaluate) 教程

BLEU(Bilingual Evaluation Understudy)，即双语评估替补，通过比较，机器翻译的句子和参考翻译句子之间的 n-gram (n元语法) 重叠情况来衡量翻译质量，也可用于评估大语言模型的输出质量。

2025-01-02 17:46:46 1079

原创 LLM - 使用 LLaMA-Factory 部署大模型 HTTP 多模态服务教程 (4)

大模型的 HTTP 服务，通过网络接口，提供 AI 模型功能的服务，允许通过发送 HTTP 请求，交互大模型，通常基于云计算架构，无需在本地部署复杂的模型和硬件，就能够访问和使用。通过简单的 API 调用，执行各种任务，从而在各种应用中实现智能化，不仅提高模型的可访问性，还降低技术门槛。

2025-01-02 11:17:11 1275

原创 LLM - 放射性医疗领域的多模态 VQA-RAD 评估集(开源) 简介

VQA-RAD 数据集标注精细，维度丰富，图像来源于 Medpix (即美国的开源放射医学教案数据库)。在每个案例中，选择有代表性的一张图片，确保数据集中每张图片对应独特的病人。确保图片的质量，选择的每张图片都是人工审核，确保没有医学标记、结构足够清晰、以及文本信息可以描述图片。专业的临床医师，按照先自由提问再规范化，对于至少40张图片进行标注，最后，确认问题的类型。这些设计，使得问题保留自然语言的流畅性，同时，也符合数据利用的规

2024-12-27 11:24:02 876

原创 LeetCode - Google 校招100题第8天图(Graph) (2题)

图(Graph) 是复杂的数据结构，由节点和连接这些节点的边组成。有向无环图(DAG) 是一种特殊的图，其中的边具有方向性，且不存在环，这种结构常用于表示任务的依赖关系或层次结构。连通分量(Connected Component) 是指图中最大的节点集合，集合中的任意两个节点都可以通过路径相互到达，在分析图的连通性时至关重要。

2024-12-26 15:06:59 307

原创 LeetCode - Google 校招100题第7天序列(数据结构&贪心) (14题)

序列结构包括栈、字典和集合等，基于不同的数据存储和访问方式的数据结构。栈(Stack) 是一种后进先出(LIFO) 的数据结构，支持推入(append) 和弹出(pop) 操作，常用于处理嵌套问题和回溯算法。字典(Map) 是一种基于键值对的存储结构，提供快速的查找、插入和删除操作，其效率通常与哈希表的实现有关。集合(Set) 是一种无序且元素唯一的数据结构，支持高效的成员检查、添加和删除操作，常用于去重和数学集合操作。

2024-12-26 14:55:02 609

原创 LeetCode - Google 校招100题第6天回溯法(Backtracking) (8题)

回溯法(Backtracking) 是一种深度优先搜索(DFS) 策略，用于遍历或搜索所有可能路径。从根节点开始，沿着每一个分支深入探索，直到达到无法继续的节点，然后，回溯到上一个节点，尝试其他可能的分支。常用于解决组合问题、排列问题、划分问题等，核心思想是在探索过程中剪枝，一旦发现当前路径不可能产生有效的解，就立即回溯，尝试其他路径，能够系统地枚举问题的解空间，寻找所有可能的解决方案，或者在找到第一个可行解后停止。

2024-12-26 14:24:25 357

原创 LeetCode - Google 校招100题第5天双指针(Two Pointers) (11题)

双指针(Two Pointers) 是数据结构中一种常用的算法策略，涉及到使用两个指针(left and right)来遍历或处理数据结构，用于解决各种问题，如移除重复元素、合并两个有序数组、反转数组部分区域、检测循环链表等。优势在于其简单性和效率，尤其是在处理线性数据结构时，调整两个指针的相对位置和移动速度来实现复杂的操作，通常只需要一次遍历即可完成任务，时间复杂度为O(n)。

2024-12-26 14:07:14 472

原创 LLM - 多模态大模型的开源评估工具 VLMEvalKit 部署与测试教程

VLMEvalKit 是大型视觉语言模型设计的开源评估工具包，由 Open Compass 团队开发，它支持一键式评估体验，无需繁琐的数据准备工作，能够对多种视觉语言模型进行评估，并覆盖了多样化的任务场景。

2024-12-09 17:21:03 1108

原创 LLM - 开源视觉多模态 LLaVA-CoT(o1) 深度推理模型测试与源码教程

LLaVA-CoT，是思维链(Chain-of-Thought, CoT) 的视觉语言模型，通过自主的多阶段推理，提升系统化和结构化推理能力，实现深度思考，包含总结摘要(SUMMARY)、视觉解释(CAPTION)、逻辑推理(REASONING)、结论生成(CONCLUSION) 等 4 个阶段，提出推理时阶段级束搜索(Inference-Time Stage-Level Beam Search) 方法，以实现有效的推理时扩展，结果表明在多模态推理基准测试中，超越基础模型和其他更大、甚至是闭源的模型。

2024-12-07 06:47:23 1543

原创 LLM - 大模型推荐系统范式生成式推荐器(Generative Recommenders) 简读

生成式推荐器(Generative Recommenders, GRs) 是大模型推荐系统范式，将推荐问题重新定义为序列直推任务，设计新的架构层次序列直推单元 HSTU(Hierarchical Sequential Transduction Units)，以应对高基数、非静态的推荐数据流。HSTU 在合成数据集和公共数据集上的 NDCG 性能比基线高出 65.8%，在处理 8192 长度序列时比基于 FlashAttention2 的 Transformer 快 5.3~15.2 倍。

2024-12-04 20:57:39 1122

原创 LLM - 大模型 LoRA 微调的超参数与参数量教程

LoRA(Low-Rank Adaptation, 低秩适配)，微调预训练大模型的技术，即参数有效微调(Parameter-Efficient Fine-tuning, PEFT)，在不改变原始权重的基础上，引入可训练的低秩分解矩阵调整模型参数，适应特定任务或领域。冻结预训练模型的参数，在 Transfomer 的每一层中，加入可训练的旁路矩阵(低秩可分离矩阵)，将旁路输出与初始路径输出相加，输入到网络当中，只训练这些新增的旁路矩阵参数。

2024-11-28 16:42:41 1500

原创 LLM - 使用 LLaMA-Factory 微调 Qwen2-VL DPO(LoRA) 图像数据集教程 (3)

DPO(Direct Preference Optimization, 直接偏好优化) 是在 RLHF 阶段中使用的优化算法，通过直接利用人类的偏好数据来优化策略模型，无需定义明确的奖励函数或进行复杂的强化学习过程。DPO的优化目标是，增加偏好样本的对数概率与减小非偏好样本响应的对数概率，结合动态加权机制，以避免仅使用概率比目标时遇到的模型退化问题。

2024-11-26 21:50:14 2203

原创 LLM - 大模型训练 RLHF 阶段的 PPO/DPO 策略公式与源码教程

在大模型的指令微调之后，模型输出可能不符合人类偏好，需要使用强化学习优化模型(RLHF)，而奖励模型(RM)是强化学习的重要组件，需要预先训练奖励模型。

2024-11-26 15:16:47 1402 2

原创 LLM - 计算大语言模型(多模态) 的参数量(Qwen2-VL、Llama-3.1) 教程

影响 (多模态)大语言模型参数量的主要网络模块，即 Linear、Embedding、Norm(LayerNorm or RMSNorm) 等 3 个部分，其中，多模态大模型还包括 Conv3D，手动计算参数量，与 PyTorch 直接计算保持一致。

2024-11-13 18:37:40 1635

药物设计相关数据库.xmind

药物设计相关数据库是专门收集、整理和提供药物候选分子、生物靶标信息、药物化学结构、生物活性数据以及药物设计工具的电子资源。

2024-07-02

MMseqs2最新版本可执行文件

官网源码：https://github.com/soedinglab/MMseqs2 MMseqs2 可执行文件，根据源码编译，需要安装插件运行，支持 MPI 功能。 apt-get install libatomic1 性能测试，参考文章：https://spike.blog.youkuaiyun.com/article/details/131966061 MMseq2 是非常强大和高效的生物信息学软件，可以在极短的时间内对大规模的核苷酸和蛋白质序列进行搜索和聚类。主要特点有： - 使用一种新颖的序列比对算法，可以在保持高灵敏度的同时，大幅提高搜索速度。它可以比 BLAST 快 10000 倍，比 PSI-BLAST 快 400 倍。 - 可以处理多种序列格式，包括 FASTA, FASTQ, A3M, Stockholm 等，还可以直接从 NCBI 下载序列数据，或者从 UniProt, Pfam, InterPro 等数据库中获取预构建的序列集。

2023-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

药物设计相关数据库.xmind

MMseqs2最新版本可执行文件

DrugChat测试模型

冷冻电镜的低通滤波算法

resnet50_ram-a26f946b.pth

XML解析数据.zip

craft_models.zip

ICDAR_2015.zip

Solidity Programming Essentials

LabelImg for Mac

boost_1_64_0和libevent-2.1.8

Kotlin中文版

IOS空应用模板

yambaclientlib - (Learning Android依赖库）

程序员面试金典 代码 全

外观模式 - 代码(Java)

命令模式(撤销) - 代码(Java)

命令模式(多命令) - 代码(Java)

抽象工厂模式 - 代码(Java)

Download - Android

Earthquake - Android Studio 代码

ContactPicker(选择联系人) - Android

ToDoList-ArrayAdapter

Compass-Android

ToDoList - Customization - Android

ToDoList - Fragment - 代码

gradle-1.11-bin

"stdlib" - jar和ppt

空空如也

程序员面试金典代码全