- 博客(6)
- 收藏
- 关注
原创 PyTorch 梯度管理完全指南:torch.no_grad() 与 requires_grad 的使用解析
本文深入探讨PyTorch中torch.no_grad()和param.requires_grad两种梯度管理工具的区别与应用。通过BERT模型实例分析四种组合场景,指出在特征提取时应同时使用两者(冻结参数+禁用梯度计算),而完整微调则需足够显存。重点解释了内存占用差异源于参数存储与激活值存储的不同,并提供了梯度累积、混合精度训练等内存优化技巧。文章还澄清了常见误区,强调合理使用这两种工具可以显著提升大型模型在有限硬件下的运行效率。
2025-12-11 11:07:23
1117
原创 BERT模型架构初探解析:从Transformer到BERT-Classification
本文深入解析了BERT模型的核心架构,从Transformer编码器演变到三大关键组件:嵌入层(词/位置/段落嵌入)、12层Transformer编码器(多头注意力+前馈网络)和池化层。通过参数分析揭示了BERT-base的1.09亿参数分布,其中编码器占比77.62%,嵌入层21.77%。文章对比了不同BERT变体,并强调了其"预训练+微调"范式对NLP领域的革新意义。理解BERT的层次化语义处理机制(表层特征→语义理解→推理抽象)和组件设计原理,有助于掌握这一里程碑模型的核心技术。
2025-12-10 10:56:28
1016
原创 BERT Tokenizer文本处理详细解析
BERT tokenizer 可以理解为 BERT 模型处理文本时的“翻译官”——它负责把我们的文字翻译成模型能看懂的数字。既要处理好过长文本的截断,又要给短文本补位填充;既能处理单个句子,也能处理两个句子组合的任务;而且还完美契合了 BERT 训练时的掩码预测这些任务需求。在实际用起来的时候,掌握好 tokenizer 的各种小技巧,无论是整理数据、准备输入,还是优化效果、调试问题,都能帮你省不少心。用好这个“翻译官”,你的模型才能更好地理解你想让它理解的东西。学习不是赛跑,是和自己一起的成长旅行。
2025-12-09 11:30:19
944
原创 Tokenizer 深度解析:以情感分析为例解剖Tokenizer的使用逻辑与操作细节。
本文总结了五道口纳什关于HuggingFace Tokenizer的视频内容,重点介绍了Tokenizer在BERT模型情感分析任务中的应用。文章阐述了Tokenizer与模型匹配的重要性,详细解析了Tokenizer的三种调用方式及其四大核心功能:词汇映射、特殊Token处理、序列规范化和生成注意力掩码。同时展示了完整的NLP流程:文本→Tokenizer处理→模型推理→输出解析。最后强调Tokenizer作为"第一道关卡"的关键作用,为原始文本到最终分类结果的转换奠定了基础。
2025-12-09 08:12:05
1046
原创 五道口纳什[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节-小白复现总结
首先在Aaconda里面新建一个虚拟环境,然后我们安装配置基本需要的python transformers torch这些库。我是nlp38这个环境下,python3.8。我是安装配置的Aaconda环境,里面也安装配置了Jupyterbook。我是小白之前也没咋用过,在这个基础上摸索进行的。因为不想Jupyter里面有过多冗余的文件,新建了一个文件夹,进入到文件夹里面启动Jupyterbook。前提得安装配置好Jupyterbook使用环境。然后就可以参考up主的代码跟着视频学习了。环境配置复现的总结。
2025-12-08 13:44:23
154
原创 实验室服务器利用docker部署Llama3本地拉取打包上传流程
新手小白参考csdn上其他博主完成,开始接到这个小任务连docker怎么用完全不知道,最开始是直接用官方ollama指令下载,实在太慢了根本不行。准备工作,xshell连接服务器,下面的对服务器上的操作都是在xshell上面输入指令。我这里是Linux的服务器,学校的内网下直接输ip端口号连接输入密码就可以。可以修改docker配置文件,添加阿里云镜像,但是没有权限修改,(ubuntu的安全策略限制了)目前找到以下本地拉取后打包传输的解决方法。目前用的是学校的服务器,docker还有显卡是默认配置好了的。
2025-04-27 11:02:33
824
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅