自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 ios::sync_with_stdio(false)和puts(“0“)会导致程序错误?谈C++输入输出同步的那些坑

谨慎对待输入输出流!

2025-04-10 19:48:21 344

原创 大模型(LLM)微调方法分类框架

大模型微调方法可以按照多个维度进行分类。以下是一个系统化的分类框架,结合技术原理、应用场景和资源需求,帮助你理解不同方法的定位和特点

2025-03-10 08:00:00 514

原创 大模型解码策略详解:top-k、top-p与temperature

在大模型中,top-k和top-p(核采样)是两种常用的解码策略参数,用于控制生成文本的多样性和随机性。

2025-02-28 11:31:17 364

原创 LLaMA论文+源码分享

含LLaMA论文地址+解读视频+源码地址分享!

2025-02-14 11:50:48 1109

原创 一杯咖啡的时间学习大模型(LLM):LLaMA解读之分组查询注意力(Grouped Query Attention)

一文读懂LLaMA核心架构之分组查询注意力(Grouped Query Attention)

2025-02-14 11:31:12 1003

原创 一杯咖啡的时间学习大模型(LLM):LLaMA解读之SwiGLU激活函数

一问读懂LLaMA核心架构之SwiGLU激活函数

2025-02-14 09:57:20 1085

原创 一杯咖啡的时间学习大模型(LLM):LLaMA解读之均方根误差标准化RMSNorm(含代码实现)

一文读懂LLaMA核心架构之均方根误差标准化RMSNorm(含代码实现)

2025-02-13 22:35:39 671

原创 一杯咖啡的时间学习大模型(LLM):LLaMA解读之旋转编码RoPE(含代码实现)

一问搞懂LLaMA的架构之旋转编码(RoPE, Rotary Position Embedding)

2025-02-13 22:01:09 540 1

原创 大模型(LLM)入门学习路线分享(内含计划表和时间安排)

大模型(LLM)学习路线总结,快速入门大模型,一起成为LLM高手!

2025-02-08 23:16:33 934

原创 【Linux基础】关于Linux Shell中参数的引用(双引号““、反斜杠)的疑难杂症

通过上面的分析,我们可以总结出以下几点关键概念:双引号:当你使用双引号引用变量时,Shell 会保留其中的空格、换行符和其他特殊字符的格式,不会对它们进行修改。变量引用($b):当你引用变量时,Shell 会自动将其中的换行符替换为空格,除非你使用双引号来保留格式。转义字符(\n):在双引号中,\n只是普通的字符序列,除非使用-e选项启用解析,才会被解释为换行符。

2024-11-26 02:30:51 929

原创 深度学习基本功——自动微分的正向模式与反向模式:理解JVP与VJP

刚才介绍的JVP、VJP是不是听上去感觉和正向、方向模式似乎有些关系?没错!正向模式对应于利用 JVP来实现输出向量(所有输出)对单一参数的求导。特别的,正向模式适用于输入维度较小的情况,因为它可以有效地逐步计算出每个输入对输出的影响,从而得到雅可比矩阵的每一列。反向模式则对应于利用 VJP 来实现输出的某个分量对参数向量(所有参数)的求导。在这一模式下,我们从输出出发,计算输出变化相对于输入变化的灵敏度,使用雅可比矩阵的转置与输出变化的向量相乘。

2024-10-23 03:15:48 1601 4

原创 cs231n学习记录贴

最近尝试入门深度学习,系统性地学习这方面知识。目前正在看吴恩达在Coursera上的。,先占个坑,以后来更新!

2024-10-14 12:50:33 230

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除