深度学习
文章平均质量分 71
GottenZZP
努力,奋斗!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
BPE分词算法逐步详解,超级简单易懂,草履虫都能看懂!
BPE(Byte-Pair Encoding,字节对编码)是一种NLP中常见的分词方法,核心思想是通过“找规律、合并重复”的方式,把经常一起出现的字符或小片段组合起来,逐步构建一个“词汇表”,然后用该词汇表来拆分任何文本。现在 “u n” 和 “n </w>” 并列最常见(16次),我们随便挑一个,比如合并 “u n” 成 “un”。初始词汇表:[“b”, “g”, “h”, “n”, “p”, “s”, “u”, “</w>”]最常见的字符对是 “u g”,出现了20次。原创 2025-04-10 10:58:51 · 961 阅读 · 0 评论 -
大模型量化是什么意思?量化的基本原理介绍
大模型量化是指将模型的参数(如权重和激活值)从高精度的数据类型(通常是浮点数,例如32位浮点数,FP32)转换为较低精度的数据类型(例如16位浮点数FP16、8位整数INT8甚至更低位整数)。这个过程旨在减少模型的计算复杂度和内存占用,从而提高推理速度并降低对硬件资源的需求。原创 2025-04-08 14:22:07 · 726 阅读 · 0 评论 -
科研小trick,早停技巧,用过的都说好~,爸爸妈妈再也不怕我过拟合啦
Early stopping在我们训练神经网络的时候,若出现过拟合的情况下,如果我们将验证集的验证误差和训练集的训练误差画图出来,将呈现下图所示的情况可以看出,在过拟合的时候,验证误差随着迭代次数的增加一般呈现出先下降,然后再上升的一个趋势通过画出这么一个图后,我们就可以找到验证误差上升到那个点的迭代次数,然后只取迭代这么多次的参数来防止过拟合,这就是early stopping的主要思想有了这个思想呢,在你训练模型的时候,你就可以在代码中进行设置,若训练过程中x次(我一般设置为3次)在验证原创 2024-05-09 10:41:24 · 746 阅读 · 0 评论 -
深度学习常用优化算法笔记介绍,各种梯度下降法详细介绍
1002425...32vtβvt−11−βθtvtθtβv10.9∗01−0.9242.4vtvt1−βtvt1−βtβvt−11−βθtv1v11−0.910.9∗01−0.9∗2424tβtvdwβ1vdw1−β1dwvdbβ1vdb。原创 2024-05-08 17:00:35 · 1164 阅读 · 0 评论 -
深度学习:自注意力机制详细笔记(嘎嘎通俗易懂,草履虫都直呼简单)
深度学习自注意力机制详细笔记原创 2024-05-05 09:57:36 · 2055 阅读 · 0 评论
分享