程序锅锅-优快云博客

原创为什么KV Cache只需缓存K矩阵和V矩阵，无需缓存Q矩阵？

注意力矩阵在训练推理过程中，为了模拟真实推理场景，当前位置token是看不到下一位置的，且只能看到上一位置以及前面序列的信息，所以在训练推理的时候加了。推导没有错，也没有Q矩阵缓存。不是说好的只有KV缓存，没有Q矩阵缓存？大家都知道大模型是通过语言序列预测下一个词的概率。，这样方便softmax的时候置为0。，注意力的计算（见注意力矩阵最下面一行）与。另外，还有个V矩阵，参照图1就干了一件事。，并在实际计算中不再需要重复计算。，计算的时候从缓存中取即可，这是。在具体实现过程中，输入。，直接从缓存中取即可。

2024-07-08 22:18:05 2963

原创大模型应用元年，到底有哪些场景可以实际落地场景？

很多企业和个人都号称自己打造了AI大模型实际落地场景，其中有噱头、蹭热点，也有真实落地应用的。下面我将聊聊有哪些应用是真实落地可执行的。

2024-07-08 22:16:08 1365

原创一文讲透彻初学者怎么入门大语言模型（LLM）？

对于初学者如何入门，我的建议是从一个开源大模型入手，全面了解它的运行原理以及如何应用。可以将大模型比作一辆车，我开车无需理解车是如何做的，但是车出问题了，了解原理能够帮我们快速找到其中的问题。

2024-06-19 15:51:13 2495 1

原创 docker容器内部网络不通，宿主机有网

MTU（ Maximum Transmission Unit，最大传输单位）,用来设置描述网络接口的最大传输量，需要注意的是，每个网络接口的MTU都不相同。如果网口的mtu与docker0 mtu不一致，就会导致容器内部能够ping，但是curl不通的情况。因此你在Linux中使用ifconfig会看到有的接口会有1492bytes,将网口的mtu与docker0 mtu保持一致，一般都是1500。不过在以太网上，标准的定义就是1500bytes.最终排查看到是mtu设置的问题。修改配置文件，永久有效。

2024-06-19 15:47:44 1015

原创初学者如何对大模型进行微调？

现在大模型微调的门槛越来越低，市场上有大量开源微调框架。只要你会部署、有机器就能出个结果，赶紧动手玩起来吧！

2024-06-06 22:12:23 1410

原创如何通俗易懂地理解大模型参数?

大型语言模型 (LLM) 的大小是通过参数数量来衡量的。举几个典型例子，GPT-3 有 1750 亿个参数，1750亿也可称为175B（1B = 10亿），Meta最新开源的Llama3 参数数量在 80 亿到 700 亿之间，智谱公司最新开源的GLM4-9B参数为90亿。这就有一个问题，什么叫做参数？

2024-06-06 22:11:08 7042

原创我用LLaMA-Factory微调大模型来实现商品评论情感分析，准确率高达91.70%

而我最近正好在学习LLaMA-Factory，正好试一试用它来微调大模型，看看最终商品评论情感预测结果究竟如何？

2024-05-26 13:05:23 2346 2

原创自己手写了一个大模型RAG项目-06.使用自己的embedding模型

修改里面的Embedding部分，替换成自己本地部署的Embedding模型，并且尝试多模态和单模态两种方式

2024-05-26 13:02:03 1475 2

原创千亿级开源大模型Qwen110B部署实测

为了探索千亿级大模型到底需要计算资源，我用云计算资源部署了Qwen1.5-110B-Chat，看看部署它到底需要多少存储资源，并且测试在不量化、8bit量化、4bit量化下的显存消耗。

2024-05-26 12:57:29 2276

原创目前有什么可以本地部署的大模型推荐？

开源大模型更新迭代太快，今年刚推出的模型可能过几个月就过时了。关于这个问题，我想更多的不是思考现在能部署哪些大模型，而是要思考三个方面：一是如何找到最新的大模型，二是如何判断本地硬件资源是否满足大模型的需求，三是如何快速部署大模型。

2024-05-22 16:34:53 9365 1

原创从零手撕LLaMa3，怒拿5.7K星标！！

这个项目发布了一个从零开始实现llama3的库，包括跨多个头的注意力矩阵乘法、位置编码和toekn化等等技术有非常详细的解释。

2024-05-22 16:30:54 575

原创我用suno做了人生中第一首歌

Suno是一个专业高质量的AI歌曲和音乐创作平台，用户只需输入简单的文本提示词，即可根据流派风格和歌词生成带有人声的歌曲。

2024-04-29 22:45:24 1150

原创自己手写了一个大模型RAG项目-05.基于知识库的大模型问答

github上的代码封装程度高，不利于小白学习入门。常规的大模型RAG框架有langchain等，但是langchain等框架源码理解困难，debug源码上手难度大。因此，我写了一个人人都能看懂、人人都能修改的大模型RAG框架代码。整体项目结构如下图所示：手把手教你大模型RAG框架架构整个小项目分为10个章节，和github高度封装的RAG代码不同，我们将从0到1搭建大模型RAG问答系统！本篇文章将介绍，知识库构建好之后还需要通过知识检索和智能问答。

2024-04-29 22:43:25 4948

原创一文彻底明白vscode远程开发、ssh免密登录那些事儿

用户必须通过访问```内网机A```，才能访问```内网机B```。一般把```内网机A```称之为堡垒机，```内网机B```称之为实际运转的服务器。如果需要连接```内网机B```，我需要ssh连接```内网机A```，然后在```内网机A```上通过ssh连接```内网机B```，每次ssh需要输入密码，并且流程复杂。那么有没有什么解决方法？我可以一键登录内网机B，并且在内网机B上远程开发调试呢？答案是有的，为了达到目的，下面我们先介绍ssh免密登录。

2024-04-19 15:52:22 718 1

原创 docker容器内ping外网能通，curl不通

排查原因是因为，在服务器上查看ifconfig，显示docker0的mtu是1500，网卡的mtu是1450。mtu是指在网络通信中能够承载的最大数据包大小。一般情况下，docker的mtu默认为1500字节。然而，不同的网络设备和网络配置可能会导致mtu大小不一致，这就会影响网络传输的性能。当数据包的大小超过mtu时，就会发生数据包分片，这会增加网络传输的延迟和丢包的风险。比如docekr0的mtu大于网卡的mtu，就会丢包，造成的结果就是能ping通外网，但是curl不通。

2024-04-16 22:17:12 1910

原创我用ragflow做了一款初中历史辅导助手，准确率高达99%

我用ragflow做了一款初中历史辅导助手，准确率高达99%

2024-04-16 21:28:37 7544 13

原创自己手写了一个大模型RAG项目-04.知识库构建

大家好，我是程序锅。github上的代码封装程度高，不利于小白学习入门。常规的大模型RAG框架有langchain等，但是langchain等框架源码理解困难，debug源码上手难度大。因此，我写了一个人人都能看懂、人人都能修改的大模型RAG框架代码。整体项目结构如下图所示：手把手教你大模型RAG框架架构整个小项目分为10个章节，和github高度封装的RAG代码不同，我们将从0到1搭建大模型RAG问答系统，所有代码评论区回复rag免费获取！本篇文章将介绍。

2024-04-10 22:01:42 3386 33

原创 conda环境迁移后，存在迁移前python环境遗留问题

最近C盘满了，之前不小心把Anaconda安装在了C盘，导致C盘满了。现在需要将之前的Anaconda环境迁移至E盘，仍然会显示迁移前Anaconda环境路径。

2024-04-05 11:23:05 520

原创关于UTF-8、ASCII字符编码那些事

如果有一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。这就是```Unicode```，就像它的名字都表示的，这是一种所有符号的编码

2024-04-04 20:14:47 1484

原创 linux添加用户，设置权限

分配sudo权限，在sudoers文件最下行加代码。首先用有root权限的账号登录，添加账号test。然后用usermod命令修改用户登入时的目录。其次，查看sudoers文件夹。最后，用切换用户至test用户。

2024-04-04 19:48:52 319

原创手把手教你完成大模型RAG知识问答应用构建-03.项目依赖环境准备

大家好，我是程序锅。github上的代码封装程度高，不利于小白学习入门。常规的大模型RAG框架有langchain等，但是langchain等框架源码理解困难，debug源码上手难度大。因此，我写了一个人人都能看懂、人人都能修改的大模型RAG框架代码。

2024-04-01 21:16:33 1417 1

原创最新版Xshell、Xftp免费安装

具体免费下载地址如下（包含Xshell和XFTP）：>https://www.xshell.com/zh/free-for-home-school/

2024-04-01 16:20:30 1116

原创解决git clone网络超时

网站https://ghproxy.com/支持github的资源代理，因此可以用此代理加速rosdep对github raw的访问。

2024-03-29 22:54:59 710

原创 5分钟教你部署一个论文修改应用

大家好，我是程序锅。上次说到ChatGPT应用非常广泛，网上也有非常多基于ChatGPT的二次开发项目。这次程序锅讲带大家5分钟部署一个论文修改项目，这个项目在github上star已经超过4W+了，可谓说是明星项目了。去年这个项目还不是很完善，今年一看几乎可以集成市面上所有大模型,开发了许多插件。这一篇文章主要教大家如何快速在自己电脑上部署起来。

2024-03-29 19:52:22 1052

原创 tiktoken原理以及如何离线环境使用

tiktoken是OpenAI开发的开源的快速token切分器。首先我们需要了解的是GPT等大模型，并不是直接将文本字符串输入大模型，第一步需要做的就是token切分编码。比如给定一个文本字符串。。

2024-03-28 23:28:44 11484 7

原创 git下载github指定分支，并实现切换

github代码版本有很多，很多新手小白只会简单git clone，看到的代码只有master版本。这篇文章将带大家玩转git切换代码分支。

2024-03-28 23:00:10 1616

原创手把手教你理解最新版Anaconda原理与安装流程

Anaconda 的运作原理是通过创建一个包含Python可执行文件及其众多依赖库的独立环境,让用户可以方便地在不同的项目和任务之间切换。原理听起来很高级，其实本质很简单，

2024-03-27 20:34:57 1291

原创大模型检索增强生成RAG原理介绍

相信通过上面的介绍，大家对为什么要用RAG、RAG的技术路线有了大概了解。下一篇文章，我们将开始环境部署，准备开发自己的大模型RAG应用。

2024-03-27 19:58:53 2306

原创手把手教你完成大模型RAG知识问答应用构建-01.如何调用大模型API

大模型的使用可以分为本地调用和远程调用。由于本地硬件资源有限，我们一般选择远程调用大模型（后续小项目，也可自己本地部署大模型）。目前市面上的大模型有ChatGPT、GPT4、GLM4、文心一言等等，OpenAI的产品由于有关原因被限制，在此我们采用智谱AI的GLM4作为实验对象。

2024-03-26 22:47:38 1802 1

原创最新版pycharm专业版（2023.3.4）环境安装

大家好，我是程序锅。随着ChatGPT等大模型技术风靡全球，PyCharm最新版也集成了许多大模型相关的产品。网上大多数老版PyCharm安装与使用的文章已经过时，无法满足最新的需求。这一篇文章手把手教大家完成最新版PyCharm专业版（2023.3.4）安装以及使用。

2024-03-26 21:15:58 2828 2

原创通过ssh连接本机windows10来调试docker

最近，接手一个项目，发现项目后台都是基于linux进行docker指令操作，无法在本地调式。本教程实现了docker在windows10环境上运行（可直接在terminal中执行docker 相关命令），并且可通过ssh连接，特别在此记录一波。一.配置环境...

2021-04-07 22:21:32 629 1

qq_35054222的博客