自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Transformer 核心之 QKV 机制:从原理到面试通关

本文深入解析Transformer中的核心注意力机制QKV(Query-Key-Value),从基本原理到面试考点。QKV通过查询-匹配-加权实现序列建模,相比RNN具有并行计算和长距离依赖捕捉优势。文章详细解答了维度设计、多头注意力、权重初始化等高频考点,并澄清了常见误区。同时分析了QKV的四大缺陷:高计算复杂度、缺乏位置信息、噪声敏感性和长文本处理局限,介绍了稀疏注意力、位置编码等改进方案。全文系统梳理了QKV机制,是理解Transformer和NLP领域的重要参考。

2025-10-29 00:38:55 1323

原创 模型微调+rag实战项目: 一. autodl + LLaMA-Factory 进行模型微调

本文介绍了使用AutoDL算力云平台LLama_factory 微调qwen2.5-7B-instruct的完整流程。

2025-10-27 19:18:54 1044

原创 RAG 系统中的幻觉问题:深度分析与解决方案

重要认知RAG 能减少幻觉,但实现不当反而会加剧幻觉不是所有问题都需要 RAG质量比覆盖率更重要RAG 不仅是技术方案,更是一种知识边界管理知道什么(文档内容)不知道什么(文档外内容)如何判断(相似度阈值)"RAG 系统的目标不是回答所有问题,而是准确回答能回答的问题,并诚实承认不能回答的问题。本文通过真实案例揭示了 RAG 系统的幻觉问题,并提供了经过验证的解决方案。希望能帮助开发者构建更可靠的 RAG 应用。

2025-10-23 12:28:45 624

原创 Transformer 中的掩码多头注意力机制与教师强制训练

掩码多头注意力:通过 “多头” 扩展建模能力,通过 “掩码” 约束注意力范围(忽略填充和未来信息),是 Transformer 并行化和序列建模的核心;教师强制训练:通过使用真实前序 token 加速训练,但需注意暴露偏差问题,需结合掩码机制保证训练与推理的一致性。两者共同支撑了 Transformer 在序列生成任务(如翻译、文本生成)中的高效训练和良好性能。

2025-10-13 22:28:17 956

原创 Transformer 核心组件学习day01: 自注意力机制,交叉注意力机制,多头注意力, 向量填充,填充掩码, 位置掩码,归一化

自注意力机制是 Transformer 的 “灵魂”,核心作用是让,并根据相关性强弱,融合上下文信息,最终得到每个元素的 “增强版表示”。

2025-10-11 20:33:59 1034

原创 WordPiece, Unigram,SentencePiece

算法上,BPE 是基于语言的最小书写单元(如英文字母、中文汉字),通过迭代合并语料中频率最高的相邻子词对来构建混合词表的子词分词算法;它解决了传统单词级词表过大、未登录词(OOV)难以处理的问题,但存在处理中文等 “最小书写单元数量多” 的语言时初始基础词表易膨胀、OOV 问题仍较明显,且仅按频率合并易导致子词语义歧义的缺陷。算法上,BBPE 先将所有语言文本转换为 UTF-8 字节序列,再以 “字节”(共 256 种,全球语言通用)为基础单位,通过迭代合并高频相邻字节对构建词表;

2025-10-10 23:22:39 672

原创 Subword算法: bpe与bbpe

子词切分算法BPE与BBPE比较分析:BPE以字符为初始单元,通过合并高频字符对构建子词,适用于单语言场景;BBPE则基于UTF-8字节实现,初始词汇表固定256个字节,支持任意文本处理,成为GPT等大模型的主流选择。二者核心区别在于初始处理单元(字符vs字节),BBPE在多语言支持方面具有明显优势。BPE适用于简单字符集场景,而BBPE凭借其通用性成为大语言模型的首选子词切分方案。

2025-10-09 20:35:39 603

原创 深度学习 - 卷积神经网络:卷积核核心知识总结

数学基础:以 “局部线性加权求和” 为计算模型,多通道场景下通过 “分通道卷积 + 跨通道累加” 整合信息;特征差异化提取:通过 “随机初始化” 建立权重差异基础,再通过 “反向传播 + 梯度下降” 的迭代更新,将差异强化为 “精准的特征适配”,最终实现不同核提取不同特征;特性约束:尺寸决定特征粒度,通道需严格匹配输入,可分离性受限于核矩阵的秩;其核心价值在于 “以较少参数捕捉图像的局部空间关联”,为后续网络层(如全连接层)提供高质量的抽象特征,支撑分类、检测等各类计算机视觉任务。

2025-09-01 12:24:44 1633

原创 为什么目标移个位置、换个背景,模型就认不出了?—— 图像识别中 “干扰因素” 的本质与应对(基础深度学习视角)

深度学习模型在图像识别中常因位置、颜色、背景等干扰因素出现误判。本文分析了基础深度学习模型(如全连接神经网络)的三大干扰困境:位置绑定、颜色敏感和背景依赖,解释了为什么简单数据集(如MNIST)表现良好而复杂场景易失效。文章提出了基础框架下的三大抗干扰策略:数据增强(制造干扰样本)、网络结构优化(增加深度和Dropout)和标签优化(聚焦目标特征)。这些方法虽能缓解问题,但面对复杂场景仍需更高级网络结构(如CNN)。本文为理解深度学习模型局限性和进阶网络设计提供了基础认知框架。

2025-08-29 15:50:50 1800

原创 关于Dropout的工作原理以及个人学习过程中部分疑惑解答

通过随机性打破过度依赖,增强模型泛化能力缩放机制保证了训练与测试阶段的信号一致性灵活应用于不同层(中间层或输入层),适应不同场景需求理解 Dropout 的关键在于把握其 "随机性" 与 "一致性" 的平衡 —— 既通过随机丢弃引入正则化效果,又通过数学机制保证模型行为的稳定性。实际应用中,需根据具体任务调整丢弃概率和应用位置,以达到最佳效果。

2025-08-28 14:19:29 679

原创 交叉熵损失

交叉熵的本质:衡量 “真实分布P” 与 “预测分布Q” 的差异,是 KL 散度的简化(忽略固定的香农熵);核心公式:离散分布下,分类任务中因P是 one-hot 分布,可简化为 “-log (真实类别的预测概率)”;二分类应用:单个样本损失,数据集损失为样本平均;优化逻辑:最小化交叉熵等价于让预测分布Q接近真实分布P,最终实现分类准确。

2025-08-26 16:13:37 1932

原创 标准化与正则化:看似冲突,实则协同

技术核心目标对权重的影响内在逻辑标准化消除特征尺度差异数值可能增大(补偿性调整)让权重大小反映实际影响力正则化防止过拟合,限制复杂度限制权重的 “实际影响力” 过大惩罚不合理的高影响力特征协同关系:标准化是正则化有效工作的前提 —— 只有当特征尺度统一后,正则化对权重的惩罚才具有实际意义(针对影响力而非数值);而正则化则在标准化的基础上,进一步确保模型不过度依赖个别特征,最终共同提升模型的稳定性与泛化能力。

2025-08-18 11:43:32 778 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除