LLM分享
文章平均质量分 80
大模型知识分享
讨厌编程但喜欢LLM的学院派
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型实战案例目录
本项目将以Qwen为例,展示如何在其架构中集成第三方插件,实现任务的模块化扩展。我们将详细讲解插件接入的关键步骤,探讨如何借助插件丰富模型的功能,并针对实际应用中的挑战和优化策略进行深入分析。面对复杂的模型架构和繁琐的技术实现,许多从业者或初学者往往无从下手。因此,创办“大模型实战案例”专栏,旨在为读者搭建一个通向大模型实践的桥梁。这个专栏中我们将深入讨论大模型的原理、架构与应用。通过实际项目以及案例来帮助订阅者们能够理解其背后的关键技术。实战项目1:大模型插件使用。原创 2024-11-04 20:48:11 · 333 阅读 · 0 评论
-
大模型推理加速综述
复习分享一下之前学过的知识点。主要是大模型推理加速方向的分享我会在每个目录下分享自己的学习过程以及实现。欢迎持续关注。原创 2024-11-06 19:00:14 · 523 阅读 · 0 评论
-
并行优化策略
•。原创 2024-11-21 20:49:53 · 1050 阅读 · 0 评论 -
一文搞懂SGD,Mometum,RMSProp,Adam,Adamw优化器
会累积之前梯度的更新方向,当前更新不只依赖当前的梯度,还受到过去更新方向的影响。2、某些梯度分量的值比另外一些分量的值要大的多,导致个别分量主导了梯度的更新方向,而期望的梯度更新方向却行进的非常缓慢.1、每一轮迭代使用的训练数据一般是小批量的,没有使用全部的训练数据,因此更新方向会发生锯齿状甚至随机震荡状;就会使得对最远的参数影响逐渐衰减 ,可以有效跟踪趋势,同时减弱数据中的随机波动影响。: 累积的动量值(类似于过去梯度的指数加权平均)。:累积的平方值大,学习率变小,从而减少更新幅度。原创 2024-11-20 20:05:22 · 1209 阅读 · 0 评论 -
sawling law for precision
11月7号 发布了一篇论文 详细讨论了低精度训练和推理会影响模型的性能。并且将传统的Sawling Law与精度对模型的影响和推理联系了起来。原创 2024-11-16 11:05:47 · 1730 阅读 · 0 评论 -
KVcache进阶
上篇文章讲了如KVcache的原理,这篇文章讲解一下KVcache的缓存大小控制KVCache存在的主要问题:KVcache就是一种用内存来换取计算量的方法,但是如果有一个长的token序列,KVcache的缓存太大如何解决??原创 2024-11-13 17:48:20 · 1890 阅读 · 0 评论 -
通俗易懂的KVcache图解
在分享之前先提出三个问题:1. 为什么KVCache不保存Q2. KVCache如何减少计算量3. 为什么模型回答的长度不会影响回答速度?本文将带着这3个问题来详解KVcache。原创 2024-11-06 18:56:16 · 2415 阅读 · 0 评论 -
大模型解决长文本输入问题
看了Kimi的广告,我发现它主打的就是“长”,不管是输入文件还是什么都能给你支持。直到今天,kimi能够支持200万token的输入,并且支持处理500个文件。我只能说200万汉字大概有6000k的tokens,如果模型处理文本真的能有这么大,那当之无愧的国产最强大模型。但是 Kimi家的模型底层用的还是moonshot大模型,它所开放的接口也就128k。截止目前数据模型可处理Tokens推出时间128k2024-3longformer40962023-3ChatGPT-4128k。原创 2024-11-04 18:15:33 · 1939 阅读 · 0 评论
分享