weixin_48142571-优快云博客

原创智能语音处理

声学基本原理音频评价方法和性能指标音频软硬件系统协助。

2025-09-04 09:24:45 844

另一方面，在大模型训练时，GPU受限的往往是显存的大小而非算力问题，因此gradient checkpointing（激活重计算），以计算力为代价来减少内存使用。主要思想就是：反向传播的时候重新计算某些层的激活，代替前向计算后需要保存占用显存的操作，从而降低GPU显存的使用。由于FP16的动态范围（ 6e−8∼65504 ）比FP32的动态范围（ 1.4e−45∼1.7×1038 ）要狭窄很多，因此在计算过程中很容易出现上溢出和下溢出的错误，溢出之后就会出现“Nan”的问题。基于Apex 的 amp使用。

2025-07-02 11:46:53 833

原创 Prompt Learning和Instruction Learning

Prompt Learning 和 Instruction Learning 都是利用提示 (prompt) 来引导大型语言模型 (LLM) 执行特定任务的方法，但它们在多个方面存在显著区别。Prompt Learning 的优势在于可以利用预训练模型的已有知识，因此不需要大量的标注数据。固定预训练模型的参数，只调整 prompt 的参数 (例如，调整虚拟 token 的 embedding)。连续的prompt/soft prompt: 使用可学习的embedding, 而不是具体的文本。

2025-03-23 22:01:59 868

原创 RAG 基本架构

langchain。

2025-02-17 12:28:43 232

原创 DeepSeek 本地部署

LM Studio (免费但是未开源，可能有数据泄露风险，所有最好完全断网使用)、了解这些部署大模型的平台的底层架构。

2025-02-15 22:29:57 255

原创注意力机制与使用了多头注意力和自注意力的transformer架构

http://zh.d2l.ai/chapter_attention-mechanisms/index.html参考《动手学深度学习》和论文attention is all you need 理解注意力机制经过漫长进化，人具有只将注意力引向感兴趣的一小部分信息的能力。这种引向体现在视觉世界中可以分为两种，通过非自主性提示或自主性提示进行有选择地引导注意力的焦点。非自主性提示是基于环境中物体的突出性和易见性，自主性提示受认知和意识的控制。自主性的与非自主性的注意力提示解释了人类的注意力的方式，下面我们看看如

2022-09-09 16:35:42 1357

weixin_48142571的博客

原创智能语音处理

原创大模型训练之减少显存占用和分布式训练

原创 Prompt Learning和Instruction Learning

原创 RAG 基本架构

原创 DeepSeek 本地部署

原创注意力机制与使用了多头注意力和自注意力的transformer架构

原创 python可视化、数据描述性统计分析、seanborn、scipy，spsspro必杀

原创用XGBoost 做特征选择，遇到的问题及解决办法。Matplotlib is currently using agg, which is a non-GUI。

转载 [动手学深度学习]softmax回归

转载最最最基础的——线性回归模型

空空如也

空空如也