- 博客(12)
- 收藏
- 关注
原创 大模型(LLM)微调方法分类框架
大模型微调方法可以按照多个维度进行分类。以下是一个系统化的分类框架,结合技术原理、应用场景和资源需求,帮助你理解不同方法的定位和特点
2025-03-10 08:00:00
514
原创 大模型解码策略详解:top-k、top-p与temperature
在大模型中,top-k和top-p(核采样)是两种常用的解码策略参数,用于控制生成文本的多样性和随机性。
2025-02-28 11:31:17
364
原创 一杯咖啡的时间学习大模型(LLM):LLaMA解读之分组查询注意力(Grouped Query Attention)
一文读懂LLaMA核心架构之分组查询注意力(Grouped Query Attention)
2025-02-14 11:31:12
1003
原创 一杯咖啡的时间学习大模型(LLM):LLaMA解读之均方根误差标准化RMSNorm(含代码实现)
一文读懂LLaMA核心架构之均方根误差标准化RMSNorm(含代码实现)
2025-02-13 22:35:39
671
原创 一杯咖啡的时间学习大模型(LLM):LLaMA解读之旋转编码RoPE(含代码实现)
一问搞懂LLaMA的架构之旋转编码(RoPE, Rotary Position Embedding)
2025-02-13 22:01:09
540
1
原创 【Linux基础】关于Linux Shell中参数的引用(双引号““、反斜杠)的疑难杂症
通过上面的分析,我们可以总结出以下几点关键概念:双引号:当你使用双引号引用变量时,Shell 会保留其中的空格、换行符和其他特殊字符的格式,不会对它们进行修改。变量引用($b):当你引用变量时,Shell 会自动将其中的换行符替换为空格,除非你使用双引号来保留格式。转义字符(\n):在双引号中,\n只是普通的字符序列,除非使用-e选项启用解析,才会被解释为换行符。
2024-11-26 02:30:51
929
原创 深度学习基本功——自动微分的正向模式与反向模式:理解JVP与VJP
刚才介绍的JVP、VJP是不是听上去感觉和正向、方向模式似乎有些关系?没错!正向模式对应于利用 JVP来实现输出向量(所有输出)对单一参数的求导。特别的,正向模式适用于输入维度较小的情况,因为它可以有效地逐步计算出每个输入对输出的影响,从而得到雅可比矩阵的每一列。反向模式则对应于利用 VJP 来实现输出的某个分量对参数向量(所有参数)的求导。在这一模式下,我们从输出出发,计算输出变化相对于输入变化的灵敏度,使用雅可比矩阵的转置与输出变化的向量相乘。
2024-10-23 03:15:48
1601
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人