Kent_Li-优快云博客

原创 Rerank 与混合检索：协同提升检索精度

摘要： Rerank（重排）比混合检索更准的核心在于两者的定位差异：混合检索负责“粗排”保证召回广度，Rerank负责“精排”提升筛选精度。混合检索基于稀疏和稠密向量的相似度匹配，存在词汇鸿沟、全局语义忽略局部逻辑及简单加权融合的局限。而Rerank通过Cross-Encoder架构实现query与文档的深度交互，结合细粒度语义理解、逻辑匹配和业务场景适配，从候选片段中精准筛选出符合用户意图的结果。实际应用中，混合检索快速召回潜在相关片段，Rerank则过滤噪声，实现意图对齐，显著提升精度。两者协同工作，共

2025-08-25 21:30:39 653

原创为什么KVCache 在推理能用，而不能在训练时用？

KV Cache（键值缓存）的核心作用是复用Transformer模型中已计算的键（Key）和值（Value），在自回归推理时避免重复计算历史token的注意力结果，显著提升生成效率。其适用场景仅限于推理阶段，原因在于：1）训练采用批量并行计算，所有token同时处理，不存在增量计算需求；2）反向传播需存储所有中间结果，缓存将导致内存爆炸；3）训练数据的动态性和随机性使缓存无法复用。因此，KV Cache是专为推理优化的技术，与训练的计算模式、内存需求和数据特性存在根本性矛盾。

2025-08-24 18:05:50 580

原创提问：温度不改变 logits 与概率的排名，为何还会影响模型输出？

温度的作用不是 “改变概率排名”，也不是 “替代核采样”，而是与核采样协同，通过调整概率分布的离散度，影响核采样候选集内的随机采样结果若用贪心搜索：排名不变→输出不变，温度和核采样均无效；若用核采样 + 随机采样：温度通过改变候选集内的概率差距，直接影响 “低排名但在候选集内的 token 被选中的概率”—— 最终实现 “温度越高，输出越多样；温度越低，输出越确定” 的效果。这也正是 “概率排名不变，但输出仍受温度影响” 的核心原因，而核采样则是温度发挥作用的重要载体。

2025-08-23 17:15:56 1048 1

原创注意力机制中为什么q与k^T相乘是注意力分数

注意力分数的本质在于通过向量点积量化查询（q）与键（k）的关联程度。$\mathbf{q} \times \mathbf{k}^T$矩阵运算能高效计算所有查询-键对的点积，其几何意义（方向相似度与信息量的乘积）完美匹配注意力机制的需求。矩阵相乘后得到原始分数矩阵，再通过除以$\sqrt{d_k}$归一化和softmax处理，最终实现"按需聚焦"。这一过程兼具数学合理性和计算高效性，是Transformer选择点积作为注意力分数核心计算方式的关键原因。

2025-08-23 11:24:00 577

原创注意力机制中除以Dk的方差归一化

注意力机制中除以√d_k的本质是方差归一化。当查询向量q和键向量k的点积不进行缩放时，其方差会随维度d_k线性增长，导致softmax输出过于极端，引发梯度消失问题。通过除以√d_k，可将点积方差稳定为1，确保softmax输出合理分布。若除以d_k或d_k²，则会使方差过小，导致注意力失效。数学示例验证了√d_k缩放能产生平缓且有区分度的概率分布，而其他缩放因子会导致分布过于均匀。这种归一化处理是保证注意力机制有效学习的关键。

2025-08-23 11:08:10 780

原创服务器查看 GPU 占用情况的方法

根据你的 GPU 类型选择对应工具即可快速掌握 GPU 的占用情况。输出包含 GPU 型号、温度、显存使用、利用率等信息。自定义需要的参数（更多参数可通过。使用 NVIDIA 官方工具。使用 ROCm 工具链中的。

2025-08-13 21:27:20 1839

原创 Docker 容器化工具及常用操作

拉取 / 构建镜像 → 创建容器运行 → 管理容器生命周期”，通过容器化解决了应用部署的环境依赖问题，是开发、测试、生产环境的常用工具。

2025-08-10 12:01:13 435

原创 Python文件读取最佳实践

read()或一次性读取。大文件：迭代文件对象（）逐行处理。'rb'模式 +read()。的。安全规范：始终用with语句管理文件，做好异常处理。

2025-08-05 11:47:24 423

原创 Softmax函数公式详解

实际应用中，为提高数值稳定性，常先对输入向量减去最大值（如 ( z_{\text{max}} = \max(z) )），以避免指数运算导致的溢出问题。Softmax还支持温度参数T调节分布平滑度：当T > 1时输出更平缓（用于模型蒸馏），T < 1时更偏向最大值类别。Softmax函数主要用于多分类问题的输出层，将任意实数向量转换为概率分布，确保所有输出值在0到1之间且总和为1。其中，分子 ( e^{z_i} ) 是指数运算，用于放大输入值之间的差异，使较大值更突出；

2025-08-02 09:23:12 1678

原创 Python 项目路径配置完全指南

核心原则：优先使用基于__file__的绝对路径，避免依赖当前工作目录。工具选择：Python 3.4+ 推荐pathlib，兼容性需求高则用os.path。项目规范：复杂项目建议通过封装为可安装包，简化路径配置。调试技巧：遇到路径问题时，先打印sys.path__file__和，定位根因。通过合理的路径配置，可显著提升 Python 项目的稳定性和可维护性，尤其在多人协作和跨环境部署时效果明显。可编辑说明：本文档采用 Markdown 格式，可直接使用 VS Code、Typora 等工具编辑。

2025-08-01 21:50:57 1422

原创配置文件格式对比与选择

常见的配置文件 / 数据交换格式包括等，它们在语法设计、功能支持和适用场景上有显著区别。

2025-08-01 10:43:13 457

原创 Milvus 的基本使用流程和核心操作指南

类似关系型数据库中的“表”，存储向量数据和元数据。

2025-07-30 09:10:20 773

原创本地Git项目初始化并提交到Gitee的详细步骤

通过以上步骤，你可以成功将本地项目初始化并提交到Gitee，建立起远程代码托管。

2025-07-28 11:23:47 571

原创长文本处理策略及项目实践总结

摘要：本文探讨了BERT等预训练模型处理长文本分类任务时的主要策略。针对512个token的输入限制，分析了截断、滑动窗口、分层编码和支持长序列模型四种方法的优缺点。截断简单但信息损失大；滑动窗口平衡了信息保留与计算成本；分层编码能捕捉文档结构但复杂度高；专用长序列模型资源消耗大。基于项目对分类精度和资源效率的要求，最终选择滑动窗口策略，通过合理设置窗口参数和融合方法，在保证性能的同时控制计算成本。文章还详细比较了分层编码与滑动窗口的核心差异，前者适合需要全局理解的长文档，后者更适用于局部任务或轻量级处理。

2025-07-27 14:34:35 738

原创 Transformer 位置编码对比

维度原始 Transformer 位置编码（正弦余弦）旋转位置编码（RoPE）原理正弦余弦函数生成，与词向量相加旋转矩阵编码，融入 query/key 向量相对位置建模弱（依赖三角恒等式，远距离区分差）强（点积仅依赖相对位置）长度扩展性差（依赖预定义最大长度）好（支持任意长度序列）计算效率高（仅加法）中（需旋转矩阵运算，可优化）典型应用BERT、GPT-1 等早期模型LLaMA、ChatGLM 等现代大语言模型。

2025-07-24 16:12:40 511

原创传统RNN模型笔记：输入数据长度变化的结构解析

本文通过PyTorch的nn.RNN构建单隐藏层RNN模型，展示RNN处理变长序列数据的能力。模型输入维度为5，隐藏层维度为6，可处理不同长度的序列（如长度1-20）。输入数据格式为[序列长度,批次大小,输入维度]，输出包含所有时间步的隐藏层输出和最后一个时间步的隐状态。RNN能动态适应变长序列，输出维度随输入序列长度变化，体现其对时序数据的处理特性。案例通过类比"逐字阅读"形象说明RNN的工作原理：每个时间步结合当前输入和上一步记忆更新状态，最终输出完整记忆过程。

2025-07-23 22:28:11 414

原创 micro avg、macro avg 和 weighted avg 的区别

多分类任务评估中的三种平均指标各有特点：micro avg汇总所有类别计算整体指标，适用于关注全局准确率；macro avg平等对待每个类别，适合各类别重要性相当的情况；weighted avg按样本数加权平均，更贴近实际业务表现。micro avg受大类影响大，macro avg易被小类拖累，weighted avg则能反映真实数据分布。实际应用中，类别不平衡时可优先看weighted avg或micro avg，若各类别同等重要则关注macro avg。选择合适指标需结合具体业务场景和数据特点。

2025-07-23 21:32:04 1182

原创 PyTorch中的torch.argmax()和torch.max()区别

都是针对张量操作的函数，但它们的核心区别在于。在PyTorch中，

2025-07-11 22:20:28 454

原创癌症筛查中精确率、准确率和召回率的协同分析与医疗决策

癌症筛查指标解析：精确率53.3%（避免过度诊断）、准确率91%（综合正确率）、召回率80%（减少漏诊）。在医疗场景中，需权衡指标：早期筛查优先高召回率，确诊阶段重视精确率，准确率需结合人群比例判断。案例显示，尽管准确率高，但漏诊20%患者仍不可忽视，需通过多阶段检测优化筛查策略（如初筛+复检），平衡诊断敏感性与特异性。

2025-06-28 11:18:19 1009

原创传统 HTML Web 请求与前后端分离 Web 请求的对比与选择

传统HTML Web请求和前后端分离架构在请求流程、数据交互、后端处理和典型场景上存在显著差异。传统模式采用同步请求，后端渲染HTML并返回完整页面，数据与视图耦合；前后端分离则通过异步API（如RESTful）返回JSON数据，前端动态渲染，实现解耦。传统模式适合简单、SEO优先的场景，开发效率较低；分离架构更适用于复杂交互应用，支持多端复用和并行开发，但需额外处理SEO优化。现代项目常混合使用两种方式，兼顾性能和SEO需求。

2025-06-27 10:02:03 658

原创精确率、准确率、召回率、F1 值的区分与记忆方法

机器学习分类模型评估指标解析：精确率（Precision）衡量预测正例的准确性，召回率（Recall）评估正例识别能力，准确率（Accuracy）反映整体预测正确性但受样本分布影响，F1值则综合平衡精确率和召回率。理解这些指标需基于混淆矩阵（TP/FP/FN/TN），不同业务场景对指标各有侧重，如医疗诊断重视召回率，推荐系统关注精确率。通过场景联想和记忆口诀可有效区分这些易混淆概念，为模型评估提供多维度的性能分析视角。（149字）

2025-06-25 10:17:00 1738

原创 Conda 与 Pip：包管理工具的全面对比与最佳实践

Conda和pip作为Python包管理工具存在核心区别：pip为Python官方包管理器，仅管理Python依赖；Conda则支持跨语言依赖管理。Conda采用严格依赖检查，预编译安装更快，适合科学计算；pip更新更快，适合纯Python项目。虚拟环境方面，conda内置隔离更完善，pip需搭配venv使用。建议数据科学项目优先使用conda，简单Python项目选择pip，复杂场景可谨慎混用两者，并导出环境配置确保一致性。工具选择应基于项目复杂度、依赖类型和部署需求。

2025-06-25 08:27:04 630

原创正则表达式匹配的基本规则总结

正则表达式核心规则摘要：基础匹配包含字面字符和元字符（如\d匹配数字，^$定位开头结尾）；字符类[]定义匹配范围，量词控制重复次数（*、+、{n,m}）；分组()用于提取子匹配，零宽断言（如(?=)）实现条件匹配；转义和优先级需注意。实用技巧包括邮箱验证、中文提取和格式替换，强调精确性、排他性和全面性。（149字）

2025-06-24 15:58:57 619

原创 conda 常用命令详细总结

本文介绍了Conda环境管理和包管理的基本操作。环境管理部分涵盖创建、查看、激活/切换、退出、复制和删除环境的方法；包管理部分包括安装、更新、卸载、查看和搜索包的指令；镜像源管理涉及查看、添加、删除和恢复镜像源；其他常用命令包含查看版本、更新Conda、导出/导入环境配置等。这些命令为使用Conda进行Python环境管理提供了完整指南，适用于Windows、Linux和macOS系统。

2025-06-24 11:19:25 845

原创 PyTorch 中 nn.Linear 层特性总结笔记

PyTorch中的nn.Linear层始终作用于输入张量的最后一个维度，其他维度被视为批量维度。无论输入是二维还是更高维，它都会对最后一个维度进行线性变换，保持其余维度不变。输入的最后维度需等于in_features，输出维度变为out_features。该特性使其适用于多种场景，如NLP序列处理、多头注意力机制等，通过公式y=x·Wᵀ+b实现变换，具有灵活的网络适配能力。

2025-06-16 21:43:17 1090

原创 RNN 代码理解

一、记忆 RNN 的 3 个核心要点。

2025-06-07 10:13:59 235

原创四种图像（二值图、灰度图、索引图、RGB 图）的详细介绍与对比

本文介绍了四种常见图像类型：1）二值图（1位像素，仅黑白两色，适用于文字识别）；2）灰度图（8位像素，256级灰度，用于黑白照片）；3）索引图（调色板映射最多256色，适合GIF等简单图像）；4）RGB图（24位真彩色，1677万色，用于数码照片）。通过对比表格展示了它们在颜色数量、存储方式和应用场景上的差异，其中数据量从二值图到RGB图依次增大。文章还提及了图像模式转换的基本原理和典型应用场景。

2025-06-06 23:09:01 1545

原创深度学习中模型、损失函数与优化器的协作机制详解

一、核心概念对应关系在机器学习理论体系中，存在模型、策略、算法三大核心要素，而在深度学习的具体实现中，它们分别对应神经网络结构、损失函数、优化器。二、三者协作流程详解。

2025-05-29 21:54:48 1099

原创从四个维度分析过拟合及其解决方向

摘要：过拟合指模型在训练集表现过优但泛化能力差的现象，核心源于模型复杂度与数据信息量的失衡。主要原因包括：1）模型复杂度过高或正则化不足，导致拟合噪声；2）数据含噪声或分布偏差，误导模型学习；3）训练数据量不足或增强缺失，限制规律学习；4）特征冗余或工程不当，引发虚假关联。解决方案需平衡模型简化、数据优化及特征降维，如添加正则化、清洗数据、增加样本或使用PCA，以提升泛化性能。（150字）

2025-05-29 09:08:36 578

原创深度学习基础及优化方法学习总结

动量法（Momentum）：通过指数移动加权平均综合考虑历史梯度和当前梯度，更新公式为W新 = W旧 - 学习率 * St。自适应学习率 - AdaGrad：根据历史累计平方梯度调整学习率，学习率公式为学习率 = 学习率 / (sqrt(St) + 小常数)，可能导致学习率过早、过量降低。自适应学习率 - RMSProp：对 AdaGrad 进行优化，引入调和权重系数β，指数加权平均累计历史平方梯度，学习率公式与 AdaGrad 相同。自适应矩估计 - Adam。

2025-05-29 08:57:39 442

原创张量和神经网络搭建主要要点

【代码】深度学习主要要点。

2025-05-26 21:19:24 258

原创特征降维：何时做与如何做

是否进行特征降维需要根据具体问题和数据特点来决定。你提到的 “减少特征会丢失信息” 和 “不重要特征可能被模型自动弱化” 有一定道理，但实际情况更为复杂，以下从。

2025-05-26 20:35:36 1086

原创深入理解多重共线性

在数据分析和机器学习建模过程中，多重共线性是一个需要重点关注的问题，它会对模型的稳定性和准确性产生较大影响。多重共线性指的是回归模型中的解释变量（特征）之间存在较强的线性关系。简单来说，就是某些特征可以通过其他特征的线性组合近似表示。例如，在研究房屋价格的模型中，“房屋总面积” 和 “室内使用面积 + 室外公摊面积” 这两个特征，后者基本能通过前者推导得出，它们之间就存在多重共线性；

2025-05-26 20:34:22 1058

原创关于 PyTorch 张量梯度计算与计算公式关系的疑问整理文档

一、问题背景x.grad跟x经历的计算有关，那么x里面会保存x所做的计算公式吗？为了清晰解答该问题，先回顾张量计算梯度的相关案例。二、张量计算梯度案例回顾在该案例中，通过计算出了 $ y $ 对 $ x $ 中每个元素的梯度，最终得到每个 $ x_i $ 的梯度均为 $ 3 $ ，与数学推导一致。三、问题分析与解答。

2025-05-26 20:13:54 523

原创全面解析机器学习数据集：从本质到常见问题

$ F1 = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision+Recall}} $，平衡 P 和 R 的综合指标。精确率：$ \text{Precision} = \frac{\text{TP}}{\text{TP+FP}} $（预测为正的样本中真实正例的比例）。召回率：$ \text{Recall} = \frac{\text{TP}}{\text{TP+FN}} $（真实正例中被正确预测的比例）。

2025-05-26 20:11:39 1006

Kent_Li的博客