yxx122345-优快云博客

原创 LightGBM /线性学习器(Linearlearner)/ K-均值聚类 /神经主题模型(NTM)

算法适用任务适合欺诈检测？LightGBM结构化数据分类/回归✅ 非常适合线性学习器简单线性分类/回归❌ 复杂关系捕捉差K-均值聚类无监督分群❌ 不是分类模型神经主题模型 (NTM)文本主题建模❌ 不适合结构化数据针对你的题目，最合适的是A：LightGBM。

2025-08-07 10:34:55 337

原创几种常见的特征工程技术（特征拆分 ·对数变换 ·独热编码·标准化分布）

把一个复杂的字段，拆分成多个更细粒度的子特征。

2025-08-07 10:16:48 491

原创算法面试常考【手撕MHA】

MHA 是 Transformer 中最关键的一层，它的思想是：“将输入映射到多个不同的子空间（多个 Head），分别做 Attention，再拼接在一起。它的核心组件是多个 Head 并行处理。

2025-08-06 14:01:03 608

原创 windows上用Cursor接入MCP，Node.js安装好的情况下依然报错Client Closed

要被这个问题气笑了网上找了一大圈没想到是这个原因还是无意间试出来的话不多说直接开始在smithery.ai上搜weather的MCP，我的cursor版本是0.48.8所以一开始就被耍了，我直接点了左边的>0.47的版本，怎么弄都不对，后面用<0.46搞好的。

2025-04-09 13:42:23 1572 2

原创 owl报错：Error while executing the action: Error while executing the action : invalid syntax (＜string＞,

就行了，就是模型能力不支持某些任务（例如网页访问识别url等）换成可以联网的的多模态模型就行。owl报错，模型都换成。

2025-03-26 15:48:22 285

原创 GraphRAG和普通RAG对比起来好在哪

普通RAG更适合通用任务，计算效率高，但在复杂推理和知识增强方面有限。GraphRAG在复杂任务、知识增强和领域适应性上表现更优，尽管速度和成本较高，但在知识密集型场景中具有显著优势。

2025-03-24 15:16:58 754

原创现在常用的多Agent框架还有哪些？

以下是当前常用的多智能体（Multi-Agent）框架的汇总，包括名称、作者、主要功能和 GitHub 链接：

2025-03-18 20:51:32 411

原创 RAG构建文本类处理结构化知识库的考点有哪些

你现在是自己搭建 RAG 还是用现成的框架（如 LangChain + FAISS）？：让 LLM 充分利用检索到的结构化知识，提高生成质量。：评估 RAG 系统的表现，调整以提高准确率和效率。：提高召回的精准度，使 LLM 能利用正确的信息。：保证知识以标准化格式存储，支持检索和推理。：高效存储文本，使其可以被快速检索。：提高检索和生成的准确性。

2025-03-18 20:34:26 974

原创在构建知识库的时候，怎么把自然语言转换成标准语言，有哪些方法？

（结构化或格式化的知识表示）是一项关键任务。：领域明确、语法结构稳定的情况，例如法律、医学等领域。：需要灵活适配多种语言表达方式，并支持知识自动补全。：适用于较大规模、规则不易归纳的文本数据。其实面试官想考的是最后示例部分的内容。如果你的知识库规模较小，可以使用。“比尔·盖茨是微软的创始人。

2025-03-18 20:29:51 494

原创多Agent的合作模式有哪些？除了决策者和执行者还有没有其他逻辑

多Agent系统的合作模式多种多样，每种模式都有其独特的优势和适用场景。选择合适的合作模式需要根据具体任务需求、系统目标和环境特点进行综合考虑。随着技术的不断发展，多Agent系统的协作模式也在不断演进，未来可能会出现更多创新的协作方式。

2025-03-18 20:18:00 926

方法优点缺点适用场景基于规则简单高效灵活性差，难以捕捉复杂语义对排序质量要求不高的场景基于特征工程灵活性较高，适合中等规模数据特征工程依赖人工设计中等规模数据集基于学习的重排序捕捉复杂排序规律，适合大规模数据需要标注数据，计算开销较大大规模数据集基于交叉注意力排序质量高，捕捉细粒度交互计算开销大，需要 GPU 支持高质量排序需求基于图的重排序捕捉文档关联关系实现复杂，计算开销较大文档集合结构复杂的场景基于聚类提高文档多样性聚类质量影响排序效果需要多样化结果的场景基于强化学习。

2025-03-18 19:59:30 1316

原创 rerank除了调用rerank模型还有哪些方法

方法优点缺点适用场景基于规则简单高效灵活性差，难以捕捉复杂语义对排序质量要求不高的场景基于特征工程灵活性较高，适合中等规模数据特征工程依赖人工设计中等规模数据集基于学习的重排序捕捉复杂排序规律，适合大规模数据需要标注数据，计算开销较大大规模数据集基于交叉注意力排序质量高，捕捉细粒度交互计算开销大，需要 GPU 支持高质量排序需求基于图的重排序捕捉文档关联关系实现复杂，计算开销较大文档集合结构复杂的场景基于聚类提高文档多样性聚类质量影响排序效果需要多样化结果的场景基于强化学习。

2025-03-18 19:51:57 1142

原创在RAG中已经向量检索过了为什么还要rerank

在 RAG 系统中，向量检索和重排序向量检索负责快速检索相关文档。重排序负责对检索结果进行精细排序，确保最相关的文档用于生成。弥补向量检索的局限性（如语义相似度 ≠ 相关性）。提升排序质量，确保生成模型接收到最相关的文档。在效率和精度之间取得平衡。通过结合向量检索和重排序，RAG 系统能够在保证效率的同时，提供高质量的生成结果。

2025-03-18 19:48:03 968

原创如何计算一个7B的模型训练需要的参数量以及训练时需要的计算资源

参数量：7B 参数模型的总参数量约为 70 亿。计算资源需要约4.2×10224.2×1022FLOPs。使用 1000 张 A100 GPU，训练时间约为 1.5 天。成本硬件成本约 1000 万美元，电力成本约 1440 美元。训练一个 7B 参数模型需要大量的计算资源和成本，通常只有大型研究机构或公司才能承担。

2025-03-18 17:51:49 2594

原创绝对位置编码、相对位置编码、旋转位置编码分别是什么，他们的优缺点是【进阶版】

特性绝对位置编码相对位置编码旋转位置编码（RoPE）核心思想为每个位置分配唯一编码建模元素之间的相对位置通过旋转操作注入位置信息实现复杂度简单较复杂较复杂计算开销低较高中等长度外推能力有限（可学习编码）或较好（正弦）较好非常好是否建模相对位置否是是是否需要额外参数无（正弦余弦）或有（可学习）是无适用场景通用任务需要相对位置的任务（如翻译）长序列任务（如文档生成、代码）它的旋转操作是连续的、平滑的。它不需要额外参数，直接用数学公式计算位置信息。

2025-03-18 17:39:20 1488

原创 transformer中多头注意力机制的参数量是多少？

在Transformer模型中，**多头注意力机制（Multi-Head Attention, MHA）**的参数量主要由以下几个部分组成：多头注意力机制首先对输入进行线性变换，生成查询（Query）、键（Key）和值（$alue）矩阵。假设：那么，生成 Query、Key 和 Value 的线性变换矩阵的参数量为：由于有 hhh 个头，每个头都有自己的 WQW_QWQ、WKW_KWK 和 WVW_VWV，因此总参数量为：h×(dmodel×dk+dmodel×dk+dmodel×dv)h \tim

2025-03-18 16:45:50 1484

原创常见的有监督算法/无监督算法汇总

无监督学习算法广泛应用于聚类、降维、关联规则学习、异常检测和生成模型等任务。与有监督学习不同，无监督学习不需要标签数据，而是通过数据本身的特征进行学习。选择合适的无监督学习算法需要根据任务需求和数据特点进行权衡。

2025-03-18 14:52:47 1664

原创多层感知机

感知机（Perceptron）是神经网络的基本单元，由 Frank Rosenblatt 在 1957 年提出。它是一个二分类模型，输入为特征向量，输出为类别标签（如 0 或 1）。yfw⋅xbyfw⋅xb其中：xxx是输入特征向量，www是权重向量，bbb是偏置项，fff是激活函数（如阶跃函数）。

2025-03-18 14:42:05 1643

原创【秋招算法笔试】衡量模型准确度的指标

分类任务：准确率、精确率、召回率、F1 分数、ROC 曲线、AUC、PR 曲线。回归任务聚类任务：轮廓系数、Calinski-Harabasz 指数、Davies-Bouldin 指数。排序任务：MAP、NDCG。根据任务类型和业务需求选择合适的指标！

2025-03-15 16:21:37 673

原创【秋招笔试】排序

比较排序：冒泡、选择、插入、快速、归并、堆排序。非比较排序：计数、桶、基数排序。代码实现、时间复杂度分析、稳定性分析、适用场景。

2025-03-15 16:08:13 345

原创【秋招笔试】KMP算法考点

KMP 算法的核心考点围绕next数组的计算、匹配过程、时间复杂度分析以及代码实现展开。掌握这些内容后，能够熟练解决与 KMP 算法相关的各类问题。

2025-03-15 15:57:15 673

原创在attetion计算中为什么要softmax

归一化：将相似度分数转换为概率分布。聚焦性：放大高分值，抑制低分值，使模型聚焦于重要部分。可解释性：权重具有明确的概率意义，便于理解和分析。Softmax是注意力机制中不可或缺的一部分，确保了模型能够有效地分配注意力资源。

2025-03-10 18:52:24 1497

原创 GRPO报错：ValueError: The global train batch size (1 x 2) must be evenly divisible by the number of gen

在我的错误中，G=1x2=2，num_generations=8，所以报错了，这和我们之前理解的2*4=8完全不一样。num_processes是GPU数量（单卡默认为1），per_device_train_batch_size是上面设置的变量，然后这个G必须被num_generations整除。全局训练批次大小G= {num_processes} x {args.per_device_train_batch_size}

2025-02-27 18:23:57 1742 1

原创在ubantu使用Jupter遇到同一个包jupter里是A版本服务器是B版本的解决方案

例如想在jupter里更新huggingface-hub==0.23.3，直接强制执行即可。网上说一大堆的什么用的不是一个python什么的太复杂看不懂，直接暴力解决。

2025-02-27 13:52:50 104

原创【平方残差】在softmax后为什么不算残差而要用交叉熵

函数定义在。

2025-02-26 15:35:37 879

原创【交叉熵】以e为底，-logx，x属于0-1的函数图像是怎样的

已知：softmax后得到概率P(0-1之间)，取P的以e为底的负对数，就是交叉熵我们要讨论的是函数fx−logex，其中logex表示以e为底的对数函数。

2025-02-26 15:17:36 1254

原创反向传播链式法则求导为什么是x(1-x)？小白入门理解

我们进行反向推导，有个直观地理解即可。为了更清晰地理解，我们可以先推导这个表达式的导数，并找到对应的函数。想详细的可以看：https://www.bilibili.com/video/BV1Lz421y74k/?假设我们想找到某个函数fxf′xx⋅1−x。

2025-02-26 12:33:18 691

原创大白话讲梯度下降-含举例【入门级】

梯度为正：参数需要减小。梯度为负：参数需要增加。梯度为零：达到最小值，停止更新。通过这个例子，你可以看到梯度下降如何根据梯度的正负来调整参数，最终找到函数的最小值！😊。

2025-02-26 11:56:42 757

原创简要总结一下量化、剪枝、知识蒸馏最重要的知识点

量化（Quantization）、剪枝（Pruning）和知识蒸馏（Knowledge Distillation）是深度学习中常用的模型压缩和优化技术。

2025-02-25 17:14:15 542

原创在量化中，bf16、fp16、fp32、int8的含义

精度格式位数动态范围精度优点缺点用途fp3232大高高精度，广泛支持内存和计算开销大训练和推理fp1616中中减少内存占用，加速训练和推理精度较低，可能溢出或下溢混合精度训练，推理加速bf1616大中低动态范围大，适合训练精度较低深度学习训练（如TPU）int88小低显著减少内存占用，加速推理精度损失较大边缘设备推理int44很小极低极低内存占用精度损失非常大超低功耗设备。

2025-02-25 17:13:41 3380

原创常用的提示词撰写方法，例如CoT，Meta prompt等

CoT适合复杂推理任务。适合任务分解和多任务学习。Few-Shot 和 Zero-Shot适合快速适应新任务。和适合个性化输出。和适合高质量输出任务。根据任务需求选择合适的提示词方法，可以显著提升模型的表现！

2025-02-25 15:15:14 1302

原创 encoder-only | decoder-only | encoder-decoder常见模型总结

这些结构的选择取决于任务需求，Decoder-only适合生成任务，Encoder-only适合理解任务，而Encoder-Decoder则兼顾两者。

2025-02-25 15:10:02 756

原创神经网络中有那几类常用的函数？

损失函数衡量模型预测和真实值之间的差距，是优化算法的目标函数。优化函数（通常指优化算法）用于更新网络权重，最小化损失函数。激活函数引入非线性特征，使神经网络可以学习复杂的映射关系。用于防止过拟合，提升模型泛化能力。在嵌入空间或推荐系统中常用。

2025-02-24 14:54:40 1343

原创 Transformer的FFN层是什么

FFN 层其实就是一个“对每个 token 独立处理的小型神经网络”，负责在注意力机制之后进一步提取和转换特征。它在 Transformer 架构中和自注意力层一起，形成了每一层的基本模块。

2025-02-24 11:10:18 1788

原创 llama factory-train loss-函数图问题记录-疑似没收敛

Loss 的范围通常在。

2024-12-12 15:13:09 3685

原创【错误记录】llamafactory-train的时候-跑到50%左右-OOM

两张V100*32G训练LLaMA3-8B-Chat从硬件设施上来看训这个8B应该是绰绰有余不至于OOM。

2024-12-12 14:03:41 2843

原创阿里云PAI平台微调、部署、DSW、DLC、EAS入门教程合集

【阿里云人工智能平台PAI，微调LLM模型并部署，只花十几块钱，操作简单，一看就会。】

2024-12-11 12:19:10 852

原创 LLama factory 单机多卡-简易版-教程

Offload 技术通过将部分模型的状态或计算从显存转移到更大的主机内存（CPU RAM）或高速存储设备（NVMe），有效降低 GPU 显存占用，同时兼顾性能。声明llama3-3b-instruct不支持deepspeed不要轻易尝试不然debug就是一整天，这个deepspeed不用选！是一种灵活、高效的显存优化技术，通过卸载计算任务和数据到 CPU 或 NVMe，能够支持更大的模型训练，适应不同的硬件条件和需求。训练大型模型（如 GPT-3 或其他数十亿参数的模型）时，显存可能成为瓶颈。

2024-12-10 21:34:49 5693

原创 LLama factory 多卡 ZeRO-3 、ZeRO-2、 ZeRO-0什么意思？以及为什么没有ZeRO1

其设计目标是解决训练大规模深度学习模型时的显存瓶颈，阶段的划分主要是基于显存优化的渐进策略，而 ZeRO-1 的需求被包含在 ZeRO-2 中。虽然理论上可以有 ZeRO-1 的定义，但它的功能已经被更高级的阶段（如 ZeRO-2）自然地包含，因此实际实现中并未定义单独的 ZeRO-1。的配置，因为 ZeRO-1 的功能（只分布梯度）已经被 ZeRO-2 包含，DeepSpeed 团队选择直接跳过 ZeRO-1。由于 ZeRO-2 包含了 ZeRO-1 的功能（梯度优化），没有必要单独定义 ZeRO-1。

2024-12-10 17:13:35 2503

空空如也

空空如也