- 博客(35)
- 收藏
- 关注
原创 Rerank 与混合检索:协同提升检索精度
摘要: Rerank(重排)比混合检索更准的核心在于两者的定位差异:混合检索负责“粗排”保证召回广度,Rerank负责“精排”提升筛选精度。混合检索基于稀疏和稠密向量的相似度匹配,存在词汇鸿沟、全局语义忽略局部逻辑及简单加权融合的局限。而Rerank通过Cross-Encoder架构实现query与文档的深度交互,结合细粒度语义理解、逻辑匹配和业务场景适配,从候选片段中精准筛选出符合用户意图的结果。实际应用中,混合检索快速召回潜在相关片段,Rerank则过滤噪声,实现意图对齐,显著提升精度。两者协同工作,共
2025-08-25 21:30:39
653
原创 为什么KVCache 在推理能用,而不能在训练时用?
KV Cache(键值缓存)的核心作用是复用Transformer模型中已计算的键(Key)和值(Value),在自回归推理时避免重复计算历史token的注意力结果,显著提升生成效率。其适用场景仅限于推理阶段,原因在于:1)训练采用批量并行计算,所有token同时处理,不存在增量计算需求;2)反向传播需存储所有中间结果,缓存将导致内存爆炸;3)训练数据的动态性和随机性使缓存无法复用。因此,KV Cache是专为推理优化的技术,与训练的计算模式、内存需求和数据特性存在根本性矛盾。
2025-08-24 18:05:50
580
原创 提问:温度不改变 logits 与概率的排名,为何还会影响模型输出?
温度的作用不是 “改变概率排名”,也不是 “替代核采样”,而是与核采样协同,通过调整概率分布的离散度,影响核采样候选集内的随机采样结果若用贪心搜索:排名不变→输出不变,温度和核采样均无效;若用核采样 + 随机采样:温度通过改变候选集内的概率差距,直接影响 “低排名但在候选集内的 token 被选中的概率”—— 最终实现 “温度越高,输出越多样;温度越低,输出越确定” 的效果。这也正是 “概率排名不变,但输出仍受温度影响” 的核心原因,而核采样则是温度发挥作用的重要载体。
2025-08-23 17:15:56
1048
1
原创 注意力机制中为什么q与k^T相乘是注意力分数
注意力分数的本质在于通过向量点积量化查询(q)与键(k)的关联程度。$\mathbf{q} \times \mathbf{k}^T$矩阵运算能高效计算所有查询-键对的点积,其几何意义(方向相似度与信息量的乘积)完美匹配注意力机制的需求。矩阵相乘后得到原始分数矩阵,再通过除以$\sqrt{d_k}$归一化和softmax处理,最终实现"按需聚焦"。这一过程兼具数学合理性和计算高效性,是Transformer选择点积作为注意力分数核心计算方式的关键原因。
2025-08-23 11:24:00
577
原创 注意力机制中除以Dk的方差归一化
注意力机制中除以√d_k的本质是方差归一化。当查询向量q和键向量k的点积不进行缩放时,其方差会随维度d_k线性增长,导致softmax输出过于极端,引发梯度消失问题。通过除以√d_k,可将点积方差稳定为1,确保softmax输出合理分布。若除以d_k或d_k²,则会使方差过小,导致注意力失效。数学示例验证了√d_k缩放能产生平缓且有区分度的概率分布,而其他缩放因子会导致分布过于均匀。这种归一化处理是保证注意力机制有效学习的关键。
2025-08-23 11:08:10
780
原创 服务器查看 GPU 占用情况的方法
根据你的 GPU 类型选择对应工具即可快速掌握 GPU 的占用情况。输出包含 GPU 型号、温度、显存使用、利用率等信息。自定义需要的参数(更多参数可通过。使用 NVIDIA 官方工具。使用 ROCm 工具链中的。
2025-08-13 21:27:20
1839
原创 Docker 容器化工具及常用操作
拉取 / 构建镜像 → 创建容器运行 → 管理容器生命周期”,通过容器化解决了应用部署的环境依赖问题,是开发、测试、生产环境的常用工具。
2025-08-10 12:01:13
435
原创 Python文件读取最佳实践
read()或一次性读取。大文件:迭代文件对象()逐行处理。'rb'模式 +read()。的。安全规范:始终用with语句管理文件,做好异常处理。
2025-08-05 11:47:24
423
原创 Softmax函数公式详解
实际应用中,为提高数值稳定性,常先对输入向量减去最大值(如 ( z_{\text{max}} = \max(z) )),以避免指数运算导致的溢出问题。Softmax还支持温度参数T调节分布平滑度:当T > 1时输出更平缓(用于模型蒸馏),T < 1时更偏向最大值类别。Softmax函数主要用于多分类问题的输出层,将任意实数向量转换为概率分布,确保所有输出值在0到1之间且总和为1。其中,分子 ( e^{z_i} ) 是指数运算,用于放大输入值之间的差异,使较大值更突出;
2025-08-02 09:23:12
1678
原创 Python 项目路径配置完全指南
核心原则:优先使用基于__file__的绝对路径,避免依赖当前工作目录。工具选择:Python 3.4+ 推荐pathlib,兼容性需求高则用os.path。项目规范:复杂项目建议通过封装为可安装包,简化路径配置。调试技巧:遇到路径问题时,先打印sys.path__file__和,定位根因。通过合理的路径配置,可显著提升 Python 项目的稳定性和可维护性,尤其在多人协作和跨环境部署时效果明显。可编辑说明:本文档采用 Markdown 格式,可直接使用 VS Code、Typora 等工具编辑。
2025-08-01 21:50:57
1422
原创 长文本处理策略及项目实践总结
摘要:本文探讨了BERT等预训练模型处理长文本分类任务时的主要策略。针对512个token的输入限制,分析了截断、滑动窗口、分层编码和支持长序列模型四种方法的优缺点。截断简单但信息损失大;滑动窗口平衡了信息保留与计算成本;分层编码能捕捉文档结构但复杂度高;专用长序列模型资源消耗大。基于项目对分类精度和资源效率的要求,最终选择滑动窗口策略,通过合理设置窗口参数和融合方法,在保证性能的同时控制计算成本。文章还详细比较了分层编码与滑动窗口的核心差异,前者适合需要全局理解的长文档,后者更适用于局部任务或轻量级处理。
2025-07-27 14:34:35
738
原创 Transformer 位置编码对比
维度原始 Transformer 位置编码(正弦余弦)旋转位置编码(RoPE)原理正弦余弦函数生成,与词向量相加旋转矩阵编码,融入 query/key 向量相对位置建模弱(依赖三角恒等式,远距离区分差)强(点积仅依赖相对位置)长度扩展性差(依赖预定义最大长度)好(支持任意长度序列)计算效率高(仅加法)中(需旋转矩阵运算,可优化)典型应用BERT、GPT-1 等早期模型LLaMA、ChatGLM 等现代大语言模型。
2025-07-24 16:12:40
511
原创 传统RNN模型笔记:输入数据长度变化的结构解析
本文通过PyTorch的nn.RNN构建单隐藏层RNN模型,展示RNN处理变长序列数据的能力。模型输入维度为5,隐藏层维度为6,可处理不同长度的序列(如长度1-20)。输入数据格式为[序列长度,批次大小,输入维度],输出包含所有时间步的隐藏层输出和最后一个时间步的隐状态。RNN能动态适应变长序列,输出维度随输入序列长度变化,体现其对时序数据的处理特性。案例通过类比"逐字阅读"形象说明RNN的工作原理:每个时间步结合当前输入和上一步记忆更新状态,最终输出完整记忆过程。
2025-07-23 22:28:11
414
原创 micro avg、macro avg 和 weighted avg 的区别
多分类任务评估中的三种平均指标各有特点:micro avg汇总所有类别计算整体指标,适用于关注全局准确率;macro avg平等对待每个类别,适合各类别重要性相当的情况;weighted avg按样本数加权平均,更贴近实际业务表现。micro avg受大类影响大,macro avg易被小类拖累,weighted avg则能反映真实数据分布。实际应用中,类别不平衡时可优先看weighted avg或micro avg,若各类别同等重要则关注macro avg。选择合适指标需结合具体业务场景和数据特点。
2025-07-23 21:32:04
1182
原创 癌症筛查中精确率、准确率和召回率的协同分析与医疗决策
癌症筛查指标解析:精确率53.3%(避免过度诊断)、准确率91%(综合正确率)、召回率80%(减少漏诊)。在医疗场景中,需权衡指标:早期筛查优先高召回率,确诊阶段重视精确率,准确率需结合人群比例判断。案例显示,尽管准确率高,但漏诊20%患者仍不可忽视,需通过多阶段检测优化筛查策略(如初筛+复检),平衡诊断敏感性与特异性。
2025-06-28 11:18:19
1009
原创 传统 HTML Web 请求与前后端分离 Web 请求的对比与选择
传统HTML Web请求和前后端分离架构在请求流程、数据交互、后端处理和典型场景上存在显著差异。传统模式采用同步请求,后端渲染HTML并返回完整页面,数据与视图耦合;前后端分离则通过异步API(如RESTful)返回JSON数据,前端动态渲染,实现解耦。传统模式适合简单、SEO优先的场景,开发效率较低;分离架构更适用于复杂交互应用,支持多端复用和并行开发,但需额外处理SEO优化。现代项目常混合使用两种方式,兼顾性能和SEO需求。
2025-06-27 10:02:03
658
原创 精确率、准确率、召回率、F1 值的区分与记忆方法
机器学习分类模型评估指标解析:精确率(Precision)衡量预测正例的准确性,召回率(Recall)评估正例识别能力,准确率(Accuracy)反映整体预测正确性但受样本分布影响,F1值则综合平衡精确率和召回率。理解这些指标需基于混淆矩阵(TP/FP/FN/TN),不同业务场景对指标各有侧重,如医疗诊断重视召回率,推荐系统关注精确率。通过场景联想和记忆口诀可有效区分这些易混淆概念,为模型评估提供多维度的性能分析视角。(149字)
2025-06-25 10:17:00
1738
原创 Conda 与 Pip:包管理工具的全面对比与最佳实践
Conda和pip作为Python包管理工具存在核心区别:pip为Python官方包管理器,仅管理Python依赖;Conda则支持跨语言依赖管理。Conda采用严格依赖检查,预编译安装更快,适合科学计算;pip更新更快,适合纯Python项目。虚拟环境方面,conda内置隔离更完善,pip需搭配venv使用。建议数据科学项目优先使用conda,简单Python项目选择pip,复杂场景可谨慎混用两者,并导出环境配置确保一致性。工具选择应基于项目复杂度、依赖类型和部署需求。
2025-06-25 08:27:04
630
原创 正则表达式匹配的基本规则总结
正则表达式核心规则摘要:基础匹配包含字面字符和元字符(如\d匹配数字,^$定位开头结尾);字符类[]定义匹配范围,量词控制重复次数(*、+、{n,m});分组()用于提取子匹配,零宽断言(如(?=))实现条件匹配;转义和优先级需注意。实用技巧包括邮箱验证、中文提取和格式替换,强调精确性、排他性和全面性。(149字)
2025-06-24 15:58:57
619
原创 conda 常用命令详细总结
本文介绍了Conda环境管理和包管理的基本操作。环境管理部分涵盖创建、查看、激活/切换、退出、复制和删除环境的方法;包管理部分包括安装、更新、卸载、查看和搜索包的指令;镜像源管理涉及查看、添加、删除和恢复镜像源;其他常用命令包含查看版本、更新Conda、导出/导入环境配置等。这些命令为使用Conda进行Python环境管理提供了完整指南,适用于Windows、Linux和macOS系统。
2025-06-24 11:19:25
845
原创 PyTorch 中 nn.Linear 层特性总结笔记
PyTorch中的nn.Linear层始终作用于输入张量的最后一个维度,其他维度被视为批量维度。无论输入是二维还是更高维,它都会对最后一个维度进行线性变换,保持其余维度不变。输入的最后维度需等于in_features,输出维度变为out_features。该特性使其适用于多种场景,如NLP序列处理、多头注意力机制等,通过公式y=x·Wᵀ+b实现变换,具有灵活的网络适配能力。
2025-06-16 21:43:17
1090
原创 四种图像(二值图、灰度图、索引图、RGB 图)的详细介绍与对比
本文介绍了四种常见图像类型:1)二值图(1位像素,仅黑白两色,适用于文字识别);2)灰度图(8位像素,256级灰度,用于黑白照片);3)索引图(调色板映射最多256色,适合GIF等简单图像);4)RGB图(24位真彩色,1677万色,用于数码照片)。通过对比表格展示了它们在颜色数量、存储方式和应用场景上的差异,其中数据量从二值图到RGB图依次增大。文章还提及了图像模式转换的基本原理和典型应用场景。
2025-06-06 23:09:01
1545
原创 深度学习中模型、损失函数与优化器的协作机制详解
一、核心概念对应关系在机器学习理论体系中,存在模型、策略、算法三大核心要素,而在深度学习的具体实现中,它们分别对应神经网络结构、损失函数、优化器。二、三者协作流程详解。
2025-05-29 21:54:48
1099
原创 从四个维度分析过拟合及其解决方向
摘要: 过拟合指模型在训练集表现过优但泛化能力差的现象,核心源于模型复杂度与数据信息量的失衡。主要原因包括:1)模型复杂度过高或正则化不足,导致拟合噪声;2)数据含噪声或分布偏差,误导模型学习;3)训练数据量不足或增强缺失,限制规律学习;4)特征冗余或工程不当,引发虚假关联。解决方案需平衡模型简化、数据优化及特征降维,如添加正则化、清洗数据、增加样本或使用PCA,以提升泛化性能。(150字)
2025-05-29 09:08:36
578
原创 深度学习基础及优化方法学习总结
动量法(Momentum):通过指数移动加权平均综合考虑历史梯度和当前梯度,更新公式为W新 = W旧 - 学习率 * St。自适应学习率 - AdaGrad:根据历史累计平方梯度调整学习率,学习率公式为学习率 = 学习率 / (sqrt(St) + 小常数),可能导致学习率过早、过量降低。自适应学习率 - RMSProp:对 AdaGrad 进行优化,引入调和权重系数β,指数加权平均累计历史平方梯度,学习率公式与 AdaGrad 相同。自适应矩估计 - Adam。
2025-05-29 08:57:39
442
原创 特征降维:何时做与如何做
是否进行特征降维需要根据具体问题和数据特点来决定。你提到的 “减少特征会丢失信息” 和 “不重要特征可能被模型自动弱化” 有一定道理,但实际情况更为复杂,以下从。
2025-05-26 20:35:36
1086
原创 深入理解多重共线性
在数据分析和机器学习建模过程中,多重共线性是一个需要重点关注的问题,它会对模型的稳定性和准确性产生较大影响。多重共线性指的是回归模型中的解释变量(特征)之间存在较强的线性关系。简单来说,就是某些特征可以通过其他特征的线性组合近似表示。例如,在研究房屋价格的模型中,“房屋总面积” 和 “室内使用面积 + 室外公摊面积” 这两个特征,后者基本能通过前者推导得出,它们之间就存在多重共线性;
2025-05-26 20:34:22
1058
原创 关于 PyTorch 张量梯度计算与计算公式关系的疑问整理文档
一、问题背景x.grad跟x经历的计算有关,那么x里面会保存x所做的计算公式吗?为了清晰解答该问题,先回顾张量计算梯度的相关案例。二、张量计算梯度案例回顾在该案例中,通过计算出了 $ y $ 对 $ x $ 中每个元素的梯度,最终得到每个 $ x_i $ 的梯度均为 $ 3 $ ,与数学推导一致。三、问题分析与解答。
2025-05-26 20:13:54
523
原创 全面解析机器学习数据集:从本质到常见问题
$ F1 = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision+Recall}} $,平衡 P 和 R 的综合指标。精确率:$ \text{Precision} = \frac{\text{TP}}{\text{TP+FP}} $(预测为正的样本中真实正例的比例)。召回率:$ \text{Recall} = \frac{\text{TP}}{\text{TP+FN}} $(真实正例中被正确预测的比例)。
2025-05-26 20:11:39
1006
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅