自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 智能语音处理

声学基本原理音频评价方法和性能指标音频软硬件系统协助。

2025-09-04 09:24:45 844

原创 大模型训练之减少显存占用和分布式训练

另一方面,在大模型训练时,GPU受限的往往是显存的大小而非算力问题,因此gradient checkpointing(激活重计算),以计算力为代价来减少内存使用。主要思想就是:反向传播的时候重新计算某些层的激活,代替前向计算后需要保存占用显存的操作,从而降低GPU显存的使用。由于FP16的动态范围( 6e−8∼65504 )比FP32的动态范围( 1.4e−45∼1.7×1038 )要狭窄很多,因此在计算过程中很容易出现上溢出和下溢出的错误,溢出之后就会出现“Nan”的问题。基于Apex 的 amp使用。

2025-07-02 11:46:53 833

原创 Prompt Learning和Instruction Learning

Prompt Learning 和 Instruction Learning 都是利用提示 (prompt) 来引导大型语言模型 (LLM) 执行特定任务的方法,但它们在多个方面存在显著区别。Prompt Learning 的优势在于可以利用预训练模型的已有知识,因此不需要大量的标注数据。固定预训练模型的参数,只调整 prompt 的参数 (例如,调整虚拟 token 的 embedding)。连续的prompt/soft prompt: 使用可学习的embedding, 而不是具体的文本。

2025-03-23 22:01:59 868

原创 RAG 基本架构

langchain。

2025-02-17 12:28:43 232

原创 DeepSeek 本地部署

LM Studio (免费但是未开源,可能有数据泄露风险,所有最好完全断网使用)、了解这些部署大模型的平台的底层架构。

2025-02-15 22:29:57 255

原创 注意力机制与使用了多头注意力和自注意力的transformer架构

http://zh.d2l.ai/chapter_attention-mechanisms/index.html参考《动手学深度学习》和论文attention is all you need 理解注意力机制经过漫长进化,人具有只将注意力引向感兴趣的一小部分信息的能力。这种引向体现在视觉世界中可以分为两种,通过非自主性提示或自主性提示进行有选择地引导注意力的焦点。非自主性提示是基于环境中物体的突出性和易见性,自主性提示受认知和意识的控制。自主性的与非自主性的注意力提示解释了人类的注意力的方式, 下面我们看看如

2022-09-09 16:35:42 1357

原创 python可视化、数据描述性统计分析、seanborn、scipy,spsspro必杀

最近在学习b站沐神的动手学深度学习课程,进程来到实战kaggle房价预测。准备在数据分析和预处理这部分扩充下自己的实操技能,多学习点python可视化、数据描述性统计分析的方法,了解熟悉下python的一些库。...

2022-08-25 20:09:18 2409

原创 用XGBoost 做特征选择,遇到的问题及解决办法。Matplotlib is currently using agg, which is a non-GUI。

用机器学习做kaggle 放假预测时,特征工程后的的特征有三百多个,要降维,决定用XGBoostregressor .由于特征特征太多在后面可视化遇到了些问题,先说一下我特征选择的大致过程,再说遇到的问题。......

2022-08-25 20:04:42 782

转载 [动手学深度学习]softmax回归

softmax运算获取一个向量并将其映射为概率softmax是一个多类分类模型使用softmax操作得到每个类的预测置信度(非负,和为1)使用交叉熵来衡量预测和实际类别的区别httpshttpshttpshttpshttpshttpshttpshttpshttpshttpshttpshttps。...

2022-07-29 17:20:57 374

转载 最最最基础的——线性回归模型

​参考:3.1. 线性回归 — 动手学深度学习 2.0.0-beta0 documentation

2022-07-28 15:39:45 368 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除