momo_97-优快云博客

原创大模型量化技术原理-LLM.int8()，SmoothQuant

本文介绍了两种大模型量化技术：LLM.int8()和SmoothQuant。LLM.int8()通过混合精度分解处理异常值，将推理内存减半并保持精度，适用于175B参数以下的模型推理。SmoothQuant则将量化难点从激活值转移到权重，实现全矩阵INT8量化，提升1.56倍速度并减少2倍内存。两种方法都有效解决了大模型量化中的异常值问题，但各有侧重：LLM.int8()侧重推理优化，SmoothQuant则实现更全面的量化方案。

2025-12-19 21:05:52 394

原创 chunking-free RAG简介

BGELandmarkEmbedding提出了一种无需文本切分的嵌入方法，通过三个创新点实现高效检索：1）使用特殊landmark标记捕捉句子语义，结合滑动窗口处理任意长度文本；2）采用position-aware目标函数，强调文本边界信息；3）设计多阶段学习算法，结合远程监督、弱监督和微调优化训练。配套提出的Chunking-Free检索方法通过ConstrainedSentencePrefix和SkipDecoding策略，直接从长文本中定位相关证据，解决了传统RAG系统分块处理的局限性。该方法显著提升

2025-12-19 20:56:07 730

原创大模型量化技术原理-ZeroQuant系列（一）

ZeroQuant系列研究大模型高效量化技术，包括权重和激活的细粒度量化方案、层次知识蒸馏算法（LKD）及优化后端系统。相比传统QAT方法，PTQ无需重新训练，实现更简单但精度可能下降。针对量化误差问题，提出分组量化和分token量化策略，并通过核融合技术降低计算开销。LKD方法突破传统KD限制，实现逐层量化优化，无需原始训练数据和完整教师模型，显著降低内存需求。该系列研究为大模型部署提供了高效的量化解决方案。

2025-12-14 17:37:14 478

原创 Conan-embedding整理

本文提出了一种改进的文本嵌入模型Conan-embedding，其核心创新在于动态难负样本挖掘和跨GPU平衡损失。该方法在训练过程中实时挖掘难负样本，使模型能动态适应复杂数据分布；采用多阶段训练策略，包括预训练阶段的通识学习和微调阶段的专项训练；通过跨GPU平衡损失解决训练振荡问题，提升模型稳定性。实验表明，该方法能有效提升文本嵌入质量，尤其在检索任务中表现突出。研究还探讨了不同任务（检索与STS）在训练策略上的差异，为后续研究提供了重要参考。

2025-12-11 20:57:05 943

原创从反欺诈和信用违约预测比赛中我学到了什么

本文分享了作者参加金融风控比赛的经验总结。针对反欺诈和信用违约预测两个场景，作者采用了不同的建模策略：在反欺诈任务中，通过RobustScaler处理异常值、SMOTE采样解决数据不平衡问题，并采用堆叠集成提升召回率；在信用违约预测中，则设计了具有明确金融含义的可解释特征。文章详细介绍了CatBoost和XGBoost的分阶段调参策略，从基础学习参数到树结构、正则化参数和随机采样参数，系统地优化了模型性能。作者强调，通过合理的方法论，可以在保持模型可解释性的同时获得良好的预测效果。

2025-12-10 21:54:58 500

原创 NLP-fastText理论和代码实现

上次在知乎上看到一个回答说，虽然现在大模型很火，但是传统的一些NLP方法仍然是有效的，因为传统的方法速度快，精度也没有很差，而且具有可解释性，在真实的工作中用处很大。：输入层、隐含层、输出层（Hierarchical Softmax），输入都是多个经向量表示的单词，输出都是一个特定的target，隐含层都是对多个词向量的叠加平均。其中，<表示前缀，>表示后缀。于是，我们可以用这些trigram来表示“apple”这个单词，进一步，我们可以用这5个trigram的向量叠加来表示“apple”的词向量。

2025-12-07 12:19:13 839

原创关于transformer结构的一些tips和问答

摘要：Transformer模型通过自注意力机制解决了传统RNN无法并行训练的问题。其核心结构包含重复堆叠的编码器（自注意力+前馈网络）和解码器（交叉注意力+自注意力+前馈网络），均采用残差连接和层归一化。关键技术包括：1）缩放点积注意力防止数值溢出；2）多头注意力提升特征多样性；3）位置编码捕获序列信息；4）共享嵌入层参数提升效率。相比RNN和CNN，Transformer在计算复杂度（O(n²d)）、并行性和长程依赖建模方面具有优势，成为序列建模的突破性架构。

2025-11-30 12:21:11 613

原创编辑距离（一）和编辑距离（二）

本文介绍了两种编辑距离问题的动态规划解法。编辑距离（一）计算将str1转换为str2的最少操作次数（插入、删除、替换），使用二维DP数组，时间复杂度O(n^2)。编辑距离（二）在基础上增加了不同操作的成本（ic、dc、rc），同样采用动态规划，但需注意操作成本与状态转移的对应关系。两题都需注意字符串长度与DP数组维度的对应关系，后者还要求空间复杂度O(n)。核心思想是通过比较字符是否相同来决定状态转移方式，取最小操作成本。

2025-09-11 09:22:39 337

原创【项目】在AUTODL上使用langchain实现《红楼梦》知识图谱和RAG混合检索（三）知识图谱和路由部分

文章摘要：本文介绍了一个基于《红楼梦》知识图谱的问答系统实现方案。通过Neo4j存储知识图谱数据，采用LangChain框架构建查询流程。系统设计了双层路由机制，结合关键词匹配和LLM判断问题类型（KG或RAG），并使用缓存优化查询性能。特别实现了KG+RAG混合模式，先通过知识图谱查询核心关系，再结合文档检索获取背景信息，提升回答质量。文中详细展示了Cypher查询生成、路由分类和缓存查询等核心组件的实现代码，为构建知识图谱问答系统提供了实用参考方案。

2025-09-09 21:40:57 212

原创【项目】在AUTODL上使用langchain实现《红楼梦》知识图谱和RAG混合检索（二）RAG部分

RAG技术通过以下步骤解决大模型幻觉问题：1)文本加载与分块处理，使用递归字符分割器；2)向量嵌入转换，采用HuggingFace的M3E-base模型；3)构建Chroma向量数据库存储文档片段；4)创建对话链，集成检索增强、多轮对话记忆和提示模板。系统通过检索相关文档片段作为上下文，结合LLM生成准确回答，特别适用于《红楼梦》等特定领域知识问答。关键组件包括文档检索器、历史消息管理和上下文增强链，最终形成可处理复杂查询的智能对话系统。

2025-09-09 21:40:20 222

原创【项目】在AUTODL上使用langchain实现《红楼梦》知识图谱和RAG混合检索（一）环境配置

本文记录了在AutoDL云服务器上搭建Neo4j图数据库的完整过程。作者详细介绍了从安装Java环境、下载对应版本的Neo4j安装包，到配置远程连接和内存参数的完整步骤。重点分享了在Linux系统下的配置技巧，包括环境变量设置、配置文件修改、端口开放等关键操作，并提供了解决Windows本地连接云服务器Neo4j的具体方法。文章最后提到完成环境配置后即可开始编写代码，并给出了连接Neo4j的URL格式。整个过程展现了作者通过实践解决问题的完整思路，为读者提供了有价值的参考。

2025-09-09 18:05:38 232

原创全参数微调,LoRA,QLoRA含义和代码实现

本文介绍了三种大模型微调方法：全参数微调、LoRA和QLoRA。全参数微调调整所有参数，性能好但显存占用高；LoRA通过低秩分解冻结原参数，仅训练旁路低秩矩阵，显存需求大幅降低；QLoRA在LoRA基础上引入4bit量化技术，进一步减少显存占用。文章详细解释了LoRA的配置参数、QLoRA的NF4量化原理和双重量化技术，并介绍了分页优化器应对内存峰值的方法。三种方法各有优劣，全参数微调适合高性能需求场景，LoRA性价比高，QLoRA则适用于资源极度受限的环境。

2025-08-20 22:17:09 497

原创 FP32,FP16,BF16含义和计算

1 十进制小数转二进制小数：用 “乘 2 取整” 法，得到二进制小数 0.xxxx...。2 调整为科学计数法：通过移动小数点使整数部分为 1，移动的位数决定指数（左移为正，右移为负）。3 对于无限循环二进制小数，需保留足够位数以近似表示原数（如 FP32 中尾数位限制为 23 位）。

2025-08-14 21:27:39 1200

原创 self-attention代码的三种写法(从简化版到完善版) & MQA, GQA, MHA的写法

今天简单讲一下self-attention代码的三种写法以及multi head~先附上核心公式第一个版本是简化版,之后的两个版本在简化版的基础上进行完善下图可以边看边想一下各变量的形状变化。

2025-08-10 21:30:34 941

原创计算BERT-BASE参数量

今天我们来计算一下BERT-BASE的参数量已知Transformer 层数12隐藏层维度768注意力头数12词汇表大小21128最大位置编码512BERT的结构一个词对应一个向量V(词表大小)*h(指定向量维度,base中是768)segme区分两句话2*h (现在已经不用了)bedding:需要事先设置一个最大值,超过截断(512个)512*h(现在不用绝对位置编码了,用相对位置编码)注意下图中input中的cls和sep。

2025-08-09 22:05:39 1233

原创决策树算法整理

决策树包括三个部分：内部结点（internal node），叶结点（leaf node）和有向边（directed edge）表示特征或属性，表示类，表示划分的条件。决策树学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。预测时，对新的数据，利用决策树模型进行分类。构建决策树就是一个递归的选择内部节点，计算划分条件的边，最后到达叶子节点的过程。（递归是指一种通过重复将问题分解为同类的子问题而解决问题的方法详见问题1：决策树和条件概率分布的关系？决策树可以表示成给定条件下类的条件概率分布。

2024-08-10 10:37:18 1384

原创朴素贝叶斯法和文本分类中的代码实现

但是有一个不能忽略的问题就是：在训练集不充分的情况下，缺少某个维度的条件概率时，（例如，如果P ( X ( 1 ) = 1 ∣ Y = 1 ) P(X^{(1)}=1|Y=1)P(X (1)=1∣Y=1)为0的话）那么在预测的时候，将会产生很大的错差。后验概率（Posterior Probability）：在一个事件发生后，人们分析计算导致该事件发生的各种原因的各自概率。朴素贝叶斯法分类时，对给定的输入x，通过学习到的模型计算后验概率分布P（Y=ck|X=x），将后验概率最大的类作为x的类输出。

2024-08-09 09:15:15 418

kexin197的博客