- 博客(31)
- 收藏
- 关注
原创 为什么KV Cache只需缓存K矩阵和V矩阵,无需缓存Q矩阵?
注意力矩阵在训练推理过程中,为了模拟真实推理场景,当前位置token是看不到下一位置的,且只能看到上一位置以及前面序列的信息,所以在训练推理的时候加了。推导没有错,也没有Q矩阵缓存。不是说好的只有KV缓存,没有Q矩阵缓存?大家都知道大模型是通过语言序列预测下一个词的概率。,这样方便softmax的时候置为0。,注意力的计算(见注意力矩阵最下面一行)与。另外,还有个V矩阵,参照图1就干了一件事。,并在实际计算中不再需要重复计算。,计算的时候从缓存中取即可,这是。在具体实现过程中,输入。,直接从缓存中取即可。
2024-07-08 22:18:05
2963
原创 大模型应用元年,到底有哪些场景可以实际落地场景?
很多企业和个人都号称自己打造了AI大模型实际落地场景,其中有噱头、蹭热点,也有真实落地应用的。下面我将聊聊有哪些应用是真实落地可执行的。
2024-07-08 22:16:08
1365
原创 一文讲透彻初学者怎么入门大语言模型(LLM)?
对于初学者如何入门,我的建议是从一个开源大模型入手,全面了解它的运行原理以及如何应用。可以将大模型比作一辆车,我开车无需理解车是如何做的,但是车出问题了,了解原理能够帮我们快速找到其中的问题。
2024-06-19 15:51:13
2495
1
原创 docker容器内部网络不通,宿主机有网
MTU( Maximum Transmission Unit,最大传输单位),用来设置描述网络接口的最大传输量,需要注意的是,每个网络接口的MTU都不相同。如果网口的mtu与docker0 mtu不一致,就会导致容器内部能够ping,但是curl不通的情况。因此你在Linux中使用ifconfig会看到有的接口会有1492bytes,将网口的mtu与docker0 mtu保持一致,一般都是1500。不过在以太网上,标准的定义就是1500bytes.最终排查看到是mtu设置的问题。修改配置文件,永久有效。
2024-06-19 15:47:44
1015
原创 如何通俗易懂地理解大模型参数?
大型语言模型 (LLM) 的大小是通过参数数量来衡量的。举几个典型例子,GPT-3 有 1750 亿个参数,1750亿也可称为175B(1B = 10亿),Meta最新开源的Llama3 参数数量在 80 亿到 700 亿之间,智谱公司最新开源的GLM4-9B参数为90亿。这就有一个问题,什么叫做参数?
2024-06-06 22:11:08
7042
原创 我用LLaMA-Factory微调大模型来实现商品评论情感分析,准确率高达91.70%
而我最近正好在学习LLaMA-Factory,正好试一试用它来微调大模型,看看最终商品评论情感预测结果究竟如何?
2024-05-26 13:05:23
2346
2
原创 自己手写了一个大模型RAG项目-06.使用自己的embedding模型
修改里面的Embedding部分,替换成自己本地部署的Embedding模型,并且尝试多模态和单模态两种方式
2024-05-26 13:02:03
1475
2
原创 千亿级开源大模型Qwen110B部署实测
为了探索千亿级大模型到底需要计算资源,我用云计算资源部署了Qwen1.5-110B-Chat,看看部署它到底需要多少存储资源,并且测试在不量化、8bit量化、4bit量化下的显存消耗。
2024-05-26 12:57:29
2276
原创 目前有什么可以本地部署的大模型推荐?
开源大模型更新迭代太快,今年刚推出的模型可能过几个月就过时了。关于这个问题,我想更多的不是思考现在能部署哪些大模型,而是要思考三个方面:一是如何找到最新的大模型,二是如何判断本地硬件资源是否满足大模型的需求,三是如何快速部署大模型。
2024-05-22 16:34:53
9365
1
原创 从零手撕LLaMa3,怒拿5.7K星标!!
这个项目发布了一个从零开始实现llama3的库,包括跨多个头的注意力矩阵乘法、位置编码和toekn化等等技术有非常详细的解释。
2024-05-22 16:30:54
575
原创 我用suno做了人生中第一首歌
Suno是一个专业高质量的AI歌曲和音乐创作平台,用户只需输入简单的文本提示词,即可根据流派风格和歌词生成带有人声的歌曲。
2024-04-29 22:45:24
1150
原创 自己手写了一个大模型RAG项目-05.基于知识库的大模型问答
github上的代码封装程度高,不利于小白学习入门。常规的大模型RAG框架有langchain等,但是langchain等框架源码理解困难,debug源码上手难度大。因此,我写了一个人人都能看懂、人人都能修改的大模型RAG框架代码。整体项目结构如下图所示:手把手教你大模型RAG框架架构整个小项目分为10个章节,和github高度封装的RAG代码不同,我们将从0到1搭建大模型RAG问答系统!本篇文章将介绍,知识库构建好之后还需要通过知识检索和智能问答。
2024-04-29 22:43:25
4948
原创 一文彻底明白vscode远程开发、ssh免密登录那些事儿
用户必须通过访问```内网机A```,才能访问```内网机B```。一般把```内网机A```称之为堡垒机,```内网机B```称之为实际运转的服务器。如果需要连接```内网机B```,我需要ssh连接```内网机A```,然后在```内网机A```上通过ssh连接```内网机B```,每次ssh需要输入密码,并且流程复杂。那么有没有什么解决方法?我可以一键登录内网机B,并且在内网机B上远程开发调试呢?答案是有的,为了达到目的,下面我们先介绍ssh免密登录。
2024-04-19 15:52:22
718
1
原创 docker容器内ping外网能通,curl不通
排查原因是因为,在服务器上查看ifconfig,显示docker0的mtu是1500,网卡的mtu是1450。mtu是指在网络通信中能够承载的最大数据包大小。一般情况下,docker的mtu默认为1500字节。然而,不同的网络设备和网络配置可能会导致mtu大小不一致,这就会影响网络传输的性能。当数据包的大小超过mtu时,就会发生数据包分片,这会增加网络传输的延迟和丢包的风险。比如docekr0的mtu大于网卡的mtu,就会丢包,造成的结果就是能ping通外网,但是curl不通。
2024-04-16 22:17:12
1910
原创 自己手写了一个大模型RAG项目-04.知识库构建
大家好,我是程序锅。github上的代码封装程度高,不利于小白学习入门。常规的大模型RAG框架有langchain等,但是langchain等框架源码理解困难,debug源码上手难度大。因此,我写了一个人人都能看懂、人人都能修改的大模型RAG框架代码。整体项目结构如下图所示:手把手教你大模型RAG框架架构整个小项目分为10个章节,和github高度封装的RAG代码不同,我们将从0到1搭建大模型RAG问答系统,所有代码评论区回复rag免费获取!本篇文章将介绍。
2024-04-10 22:01:42
3386
33
原创 conda环境迁移后,存在迁移前python环境遗留问题
最近C盘满了,之前不小心把Anaconda安装在了C盘,导致C盘满了。现在需要将之前的Anaconda环境迁移至E盘,仍然会显示迁移前Anaconda环境路径。
2024-04-05 11:23:05
520
原创 关于UTF-8、ASCII字符编码那些事
如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是```Unicode```,就像它的名字都表示的,这是一种所有符号的编码
2024-04-04 20:14:47
1484
原创 linux添加用户,设置权限
分配sudo权限,在sudoers文件最下行加代码。首先用有root权限的账号登录,添加账号test。然后用usermod命令修改用户登入时的目录。其次,查看sudoers文件夹。最后,用切换用户至test用户。
2024-04-04 19:48:52
319
原创 手把手教你完成大模型RAG知识问答应用构建-03.项目依赖环境准备
大家好,我是程序锅。github上的代码封装程度高,不利于小白学习入门。常规的大模型RAG框架有langchain等,但是langchain等框架源码理解困难,debug源码上手难度大。因此,我写了一个人人都能看懂、人人都能修改的大模型RAG框架代码。
2024-04-01 21:16:33
1417
1
原创 最新版Xshell、Xftp免费安装
具体免费下载地址如下(包含Xshell和XFTP):>https://www.xshell.com/zh/free-for-home-school/
2024-04-01 16:20:30
1116
原创 解决git clone网络超时
网站https://ghproxy.com/支持github的资源代理,因此可以用此代理加速rosdep对github raw的访问。
2024-03-29 22:54:59
710
原创 5分钟教你部署一个论文修改应用
大家好,我是程序锅。上次说到ChatGPT应用非常广泛,网上也有非常多基于ChatGPT的二次开发项目。这次程序锅讲带大家5分钟部署一个论文修改项目,这个项目在github上star已经超过4W+了,可谓说是明星项目了。去年这个项目还不是很完善,今年一看几乎可以集成市面上所有大模型,开发了许多插件。这一篇文章主要教大家如何快速在自己电脑上部署起来。
2024-03-29 19:52:22
1052
原创 tiktoken原理以及如何离线环境使用
tiktoken是OpenAI开发的开源的快速token切分器。首先我们需要了解的是GPT等大模型,并不是直接将文本字符串输入大模型,第一步需要做的就是token切分编码。比如给定一个文本字符串。。
2024-03-28 23:28:44
11484
7
原创 git下载github指定分支,并实现切换
github代码版本有很多,很多新手小白只会简单git clone,看到的代码只有master版本。这篇文章将带大家玩转git切换代码分支。
2024-03-28 23:00:10
1616
原创 手把手教你理解最新版Anaconda原理与安装流程
Anaconda 的运作原理是通过创建一个包含Python可执行文件及其众多依赖库的独立环境,让用户可以方便地在不同的项目和任务之间切换。原理听起来很高级,其实本质很简单,
2024-03-27 20:34:57
1291
原创 大模型检索增强生成RAG原理介绍
相信通过上面的介绍,大家对为什么要用RAG、RAG的技术路线有了大概了解。下一篇文章,我们将开始环境部署,准备开发自己的大模型RAG应用。
2024-03-27 19:58:53
2306
原创 手把手教你完成大模型RAG知识问答应用构建-01.如何调用大模型API
大模型的使用可以分为本地调用和远程调用。由于本地硬件资源有限,我们一般选择远程调用大模型(后续小项目,也可自己本地部署大模型)。目前市面上的大模型有ChatGPT、GPT4、GLM4、文心一言等等,OpenAI的产品由于有关原因被限制,在此我们采用智谱AI的GLM4作为实验对象。
2024-03-26 22:47:38
1802
1
原创 最新版pycharm专业版(2023.3.4)环境安装
大家好,我是程序锅。随着ChatGPT等大模型技术风靡全球,PyCharm最新版也集成了许多大模型相关的产品。网上大多数老版PyCharm安装与使用的文章已经过时,无法满足最新的需求。这一篇文章手把手教大家完成最新版PyCharm专业版(2023.3.4)安装以及使用。
2024-03-26 21:15:58
2828
2
原创 通过ssh连接本机windows10来调试docker
最近,接手一个项目,发现项目后台都是基于linux进行docker指令操作,无法在本地调式。本教程实现了docker在windows10环境上运行(可直接在terminal中执行docker 相关命令),并且可通过ssh连接,特别在此记录一波。一.配置环境...
2021-04-07 22:21:32
629
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人