学会思考的乐趣-优快云博客

原创强化学习PPO和GRPO逻辑学习

已经学习过强化学习了，但是理解上还是比较抽象，今天工作看到这里就再详细学习一下。

2025-11-25 09:42:34 248

原创 VLLM加速推理qwen3-vl-8b完成图生文工作本地实现记录

分别对应图像数据、视频数据和视觉处理的元数据参数。prepare_inputs_for_vllm函数，将用户输入的对话消息（包含文本、图像 / 视频）预处理为 vllm 能识别的格式，同时确保视觉信息（图像 / 视频）与模型的视觉编码器兼容。将原始的。

2025-10-21 10:34:32 3105

MinerU2.5-2509-1.2B 是由 OpenDataLab 与上海 AI 实验室于 2025 年 9 月推出的视觉语言模型，专为高精度、高效率的文档解析任务而设计。该函数是 MinerU 模型管理的 “总入口”，解决了 “模型从哪里下载、下载到哪里、如何读取本地模型” 的核心问题，实现了 “云端自动下载” 与 “本地路径读取” 的无缝切换，适配不同使用场景（如无网络环境用本地模型，有网络自动拉取最新模型）。可以在下载的MinerU项目源码的model文件夹里查看默认使用的模型。

2025-10-17 18:19:36 1716

原创每日学习内容简单汇总记录

面向推理的记忆”机制，使智能体能够在测试期连续任务流中，主动从成功与失败的经历里提炼通用化的策略，并在后续任务中有效调用与迭代，从而实现“边测试、边进化”的能力。1）ReasoningBank：把智能体在交互轨迹中的“思考与行动”蒸馏为结构化的“策略级记忆项”（title/description/content 三段式），既保留成功经验中的有效套路，也显式吸纳失败经历中的“防错启示/反事实线索”。与只存原始轨迹或只存成功流程的以往方法不同，它强调提炼可迁移的“高层推理模式”。

2025-10-16 23:46:15 867

原创本地用docling实现pdf转markdown操作笔记

Docling是一个开源的python文档处理库，由IBM开发，用于将PDFDOCXPPTXXLSX、图像、HTML等文档转换为结构化的Markdown或JSON格式，为构建AI驱动的RAG/QA应用提供了高效、便捷的解决方案。其使用的技术可以总结为：1.布局分析模型首先，Docling使用一个布局分析模型，这是一个对象检测器，用于预测给定页面图像上各种元素的边界框和类别。2.表格结构识别模型：其次，Docling使用TableFormer 表格结构识别模型模型。

2025-10-16 19:26:12 749

原创【DeepSeek原理学习2】MLA 多头隐变量注意力

MLA不直接存储完整的键值矩阵，而是存储一个维度更小的压缩向量。在需要进行注意力计算时，再通过解压缩重构出所需的键和值1.减少了权重矩阵要学习的参数量。2.通过矩阵吸收减少了中间需要解压后的K和V的矩阵，减少了中间存储数据量提高了计算效率。

2025-04-07 23:19:37 1072

原创【DeepSeek原理学习1】MOE

混合专家模型，解决的问题是确定计算量的情况下如何训练更大的模型？即参数增加但是计算量不增加。方法：将FFN层替换成MoE层，每个MoE层有一些专家网络和一个路由网络组成。专家层：每一个专家就是一个前馈的网络。路由层：根据输入token选择激活哪些专家。负载均衡问题：避免token总是偏向选择某一个专家。DeepSeek的MoE（专家混合模型）旨在通过智能分配计算资源来提升深度学习模型的效率和泛化能力。

2025-04-07 17:48:03 869

原创【大模型深度学习】如何估算大模型需要的显存

参数量的单位参数量指的是模型中所有权重和偏置的数量总和。在大模型中，参数量的单位通常以“百万”（M）或“亿”（B，也常说十亿）来表示。百万（M）：表示一百万个参数。例如，如果一个模型有110M个参数，那么它实际上有110,000,000（即1.1亿）个参数。亿（B）：表示十亿个参数。例如，GPT-3模型有175B个参数，即175,000,000,000（即1750亿）个参数。

2025-04-05 23:22:14 2089 2

原创【大模型深度学习】提示学习：Prefix tuning 、P-tuning v2、P-tuning 到底有什么区别？

Prefix tuning 、P-tuning v2、P-tuning还在傻傻分不清。到底有什么区别，本文希望说明白这些区别，如有错误欢迎指出。

2025-04-05 15:17:21 1210

原创从代码上深入学习GraphRag

最终生成实体-摘要-社区-社区摘要。使用语言模型（LLM）来提取和总结实体图中的实体描述。自下而上地生成每个社区层级及其组成部分的摘要。如果社区 A 是最高层级的社区，我们将获得有关整个知识图谱的报告。如果社区是较低级别的，则我们将获得有关局部集群的报告。生成社区报告使用 LLM 生成每个社区的摘要。这将使我们能够了解每个社区中包含的不同信息，并从高层次或低层次的角度提供对知识图谱的范围性理解。这些报告包含管理概述，并引用社区子结构中的关键实体、关系。总结社区报告。

2025-04-04 14:32:17 1096

原创 python算法和数据结构刷题[6]：二叉树、堆、BFS\DFS

两个数的和：和自己父节点的和。3个数的和，和自己父节点的和再加上父节点的父节点或者兄弟的和。如果删除的节点有左右子树，找到这个节点的左子树中最大的节点，代替这个节点，然后删除这个最大的节点，或者找右子树中最小的去替代这个节点去代替他。如果删除的是只有左子树或者右子树的节点，先找到节点的位置，让这个子树替代这个节点然后删除这个子树的节点。根节点最大的堆叫做最大堆或大根堆，根节点最小的堆叫做最小堆或小根堆，堆总是一棵完全二叉树。2）若任意节点的右子树不空，则右子树上所有结点的值均大于它的根结点的值；

2025-02-02 17:41:28 1278

原创 python算法和数据结构刷题[5]：动态规划

动态规划（Dynamic Programming, DP）是一种算法思想，用于解决具有最优子结构的问题。它通过将大问题分解为小问题，并找到这些小问题的最优解，从而得到整个问题的最优解。动态规划与分治法相似，但区别在于动态规划的子问题通常不是相互独立的。动态规划的核心是解决重复子问题。例如，斐波那契数列问题，可以通过递归实现，但效率低下，因为会有重复计算。动态规划通过存储已解决的子问题的答案，避免重复计算，从而提高效率。这种方法需要额外的存储空间，是一种空间换时间的策略。

2025-02-02 05:41:24 998

原创 python算法和数据结构刷题[3]：哈希表、滑动窗口、双指针、回溯算法、贪心算法

所有可能的结果」，而不是「结果的个数」，一般情况下，我们就知道需要暴力搜索所有的可行解了，可以用「回溯法」。回溯算法关键在于:不合适就退回上一步。在回溯算法中，递归用于深入到所有可能的分支，而迭代（通常在递归函数内部的循环中体现）用于探索当前层级的所有可能选项。

2025-02-01 03:52:15 1119

原创 python算法和数据结构刷题[4]：查找算法和排序算法

归并排序的优点之一是它不受输入数据分布的影响，始终保持O(n log n)的时间复杂度，但其空间复杂度较高，需要额外的存储空间来保存临时数组。第一步，我们先使用一次二分查找来找到对应的 target 值所在的一维数组里面，一旦锁定一维数组，就可以使用我们平时最熟悉的一维数组的二分查找了。归并排序是一种稳定的分治法排序算法，它通过将数组分为两个子数组，递归对两个子数组进行排序，然后将两个有序子数组归并为一个有序数组来将元素按照从小到大（或从大到小）的顺序排列。来将元素按照从小到大（或从大到小）的顺序排列。

2025-02-01 03:06:25 956

原创 python算法和数据结构刷题[2]：链表、队列、栈

注意：链表长度有奇数和偶数两种情况，对于奇数，如1->2->3->2->1，此时快指针fast会停在最后的1处，满指针slow停在中间的3处，这时需要对slow.next的链表进行翻转。后序遍历链表，可以使链表隐式的倒序访问节点，访问过程中，维护一个正序的指针即可。先利用快慢指针，找到链表的后半段，将链表的后半段翻转，再按顺序对比前半段和后半段的值是否一致，最终恢复原链表（后半段再翻转一次）即可。这几种方法的时间复杂度都是O(N)，前三种方法的空间复杂度是O(N)，第四种方法的空间复杂度是O(1)

2025-01-30 04:05:37 1044

原创 python算法和数据结构刷题[1]：数组、矩阵、字符串

一画图二伪代码三写代码时间复杂度和空间复杂度时间复杂度空间复杂度。

2025-01-29 14:04:57 1854

原创 python学习笔记--python知识汇总

‌。）的类方法：在创建对象时，我们不直接使用。

2025-01-07 17:50:21 1027

原创 [python学习笔记]--异常、with、assert

Python assert（断言）用于判断一个表达式，在表达式条件为 false 的时候触发异常。

2024-12-27 04:06:13 427

原创 [python学习笔记]对象、引用、浅复制、深复制、内存管理机制

学了这么多年编程，发现在学校都是浑水摸鱼，从来没有精通过一门语言，一个月熟悉python和算法。不积硅步，无以至千里。本文笔记来自以下博客，请参考原文。

2024-12-27 01:21:48 1256

原创 git学习笔记

参考这个博客讲的非常好：集中式版本控制系统，版本库是集中存放在中央服务器的，而干活的时候，用的都是自己的电脑，所以要先从中央服务器取得最新的版本，然后开始干活，干完活了，再把自己的活推送给中央服务器。集中式版本控制系统最大的毛病就是必须联网才能工作。

2024-12-13 02:56:11 777

原创 RAG基础学习

在自然语言处理领域，大型语言模型（LLM）如GPT-3、BERT等已经取得了显著的进展，它们能够生成连贯、自然的文本，回答问题，并执行其他复杂的语言任务。文本的长度是另一个关键因素，影响了文本编码的结果。这种方法基于一个存储在图数据库中的知识库，通常以三元组的形式表示为，其中每个三元组都附带相关的属性信息。TFIDF的最终值是将词项在文档中的频率和在整个文档集合中的逆文档频率相乘，这样可以得到一个更全面的评估，既考虑了在文档中的重要性，也考虑了在整个文档集合中的稀有性。

2024-12-11 03:31:20 932

原创 Flash Attention

因为SRAM利用晶体管存储数据，而HBM则是通过堆叠DRAM芯片实现高带宽和容量。然而，在实际应用中，由于HBM的堆叠设计和高速串行接口，其整体性能仍然非常出色。：HBM通过堆叠多个DRAM芯片实现了更高的容量和带宽，而SRAM的。因此，在需要处理大规模数据集和复杂计算任务的应用中，HBM更具优势。

2024-11-26 15:53:13 948

原创 DeepSpeed-chat RLHF实战

。

2024-11-23 17:16:10 1130

原创高效微调 fine tuning代码实战

参数高效微调、有监督微调（指令微调）、强化学习微调、上下文学习。

2024-11-21 20:03:10 539

原创基于Acclerate的transformers模型分布式训练解决方案

数据并行、流水并行、张量（权重）并行：安装必要的库：transformers==4.36.2 accelerate==0.26.1 evaluate datasets - 阿里源。

2024-11-20 17:01:41 1674

原创基于LLaMA Factory对LLama 3指令微调的操作学习笔记

在vscode中用连接云服务器，打开文件目录。

2024-10-28 19:05:35 902

原创 python算法学习笔记之查找算法

删除操作：如果删除叶子节点删除就可以，如果删除的是只有左子树或者右子树的节点，先找到节点的位置，让这个子树替代这个节点然后删除这个子树的节点，如果删除的节点有左右子树，找到这个节点的左子树中最大的节点，代替这个节点，然后删除这个最大的节点，或者找右子树中最小的去替代这个节点去代替他。此外，有些资料还会提到第五条规则，即每个叶子节点（最后一个节点）都是黑色的，这其实是第四条规则的一个推论，因为在红黑树中，叶子节点通常被视为指向NULL的节点，而所有这样的节点都被视为黑色。节点内的数据操作是在内存中进行的。

2024-10-25 18:10:59 1485

原创 LLM----BERT+HuggingFace理论及基础入门实战

在BERT的输入序列的最开始，会添加一个特殊的标记[CLS]。这个标记的作用是作为整个输入序列的代表，用于后续的分类任务。例如，在情感分析任务中，模型会基于这个标记的输出向量来判断整个句子的情感倾向。这在处理成对的句子或段落时特别有用，比如问答任务中的问题和答案，或者句子关系判断任务中的两个句子。运用到的是transformer的编码器结构，可以用于文本的相似度计算、序列标注、文本分类。BERT模型考虑了所有的上下文，GPT只考虑了之前的n-1刻的前文。BERT 采取的是「分字」，即每一个汉字都切开。

2024-10-22 16:36:48 1312

空空如也

空空如也