自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_42755230的博客

原创 LangChain（二）——构建多轮对话

因此，不同线程间的对话是隔开的，同一线程的对话是能被记录的，因为上面设置状态流图的内存检查点是记忆函数。是一种与对话流和任务流设计相关的框架或工具，它被设计为一种能够管理和处理复杂任务流（Task Flow）和状态流（State Flow）的工具，通常与语言模型（如 GPT 系列）结合使用，用于构建动态多轮对话系统或复杂的流程自动化任务。来构建多轮对话时，每个对话轮次是一个节点（Node），代表需要完成的任务（例如调用大模型或调用工具链），节点可以是同步或异步的函数，任务的完成可能依赖于上一个节点的输出。

2024-12-27 12:14:52 2665

原创 LangChain——trim_messages参数说明

LangChain中消息裁剪函数trim_messages参数说明

2024-12-27 12:08:18 1065

原创 LangChain(一）——构建简单的对话

使用LangChain搭建简单的对话。注意不通大模型的API，调用方式不一样。

2024-12-26 16:58:28 879

原创 Agent、AIworker和AGI的关系

区分了Agent、AI worker和AGI的关系。Agent是一个总体的、范围大的概念，AI worker是一个在特定任务上的Agent，是Agent的子集；AGI是Agent要实现的高级目标，相比于AI worker具备通用性，更强大，但依然属于Agent。

2024-12-26 09:33:50 681

原创 ubuntu服务器配置IP

服务器配置IP

2024-12-23 16:31:38 480

原创移动端部署qwen2.5大模型

移动端使用ollama部署qwen2.5大模型

2024-12-18 10:06:14 4758

原创 Ubuntu server安装中文支持

Ubuntu server不带中文支持包，这里教了在线和离线环境下安装中文支持的方法

2024-12-13 12:16:05 1765

原创 auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式

auto-gptq安装方式以及可能遇到的问题和解决方法

2024-12-12 15:26:21 3239 2

原创【大模型报错】RuntimeError: CUDA error: no kernel image is available for execution on the device

pytorch版本为2.1.2，大模型一直强调是xformer不支持，于是降低pytorch版本（其本质也是降低xformer版本）。在网上搜了很多博客，也问了chatgpt，基本可以确定是显卡版本、CUDA版本、pytorch版本有地方不兼容。之前调用大模型一直用的vllm，网上搜了下，可以确定P40显卡缺少一些算子，不支持vllm调用大模型。：将qwen大模型部署到新的服务器上，之前服务器显卡是4090，新的服务器显卡是P40。cuda版本为11.8，也不是最新的，P40是支持的。

2024-12-02 11:44:37 708 1

原创两张4090极限部署qwen模型，72b-int4版本能布上吗？

两张4090挖掘qwen模型极限部署情况

2024-10-31 17:08:17 3835 2

原创 NCCL安装（Ubuntu等）

NCCL安装

2024-10-31 16:02:23 2357

原创一文搞懂大模型量化和大模型微调

详细介绍了什么是大模型量化和大模型微调，以及阐述了两者的关系。

2024-10-24 18:48:32 2179

原创大模型3——AI论文分析助手

搭建了一个使用大模型分析学术论文的框架，并可以交互问答。

2024-10-24 11:45:29 945 2

原创 python读取学术论文PDF文件内容

使用几种python库读取学术论文PDF文件内容，给出了效果分析

2024-10-22 11:08:00 1294

原创大模型输出的outputs为什么要取[0]（即outputs[0]）

对大模型输出output取output[0]的原因进行说明

2024-10-21 17:43:10 449

原创大模型GGUF文件是啥？

GGUF文件说明

2024-10-18 14:16:44 2285

原创大模型重复输出怎么办？

对大模型重复输出问题进行了简要介绍，分析了原因并给出了一些缓解方法。

2024-10-17 15:32:39 6541

原创大模型文件夹中的各种文件都是些啥？

汇总并归类了在大模型文件夹中可能会出现的一些文件类型及其作用

2024-10-12 17:46:45 3090

原创大模型微调2——使用LLaMA-Factory微调qwen模型优化推理效果

使用LLaMA-Factory框架微调qwen大模型，介绍了LLaMA-Factory和微调流程

2024-10-12 16:47:28 2173

原创大模型微调——训练数据集的格式Alpaca 和 ShareGPT

介绍了大模型微调用到的两种数据集格式Alpaca和ShareGPT

2024-10-12 16:22:16 8108

原创大模型微调1——使用LoRA微调qwen模型优化推理效果

使用LoRA微调技术微调qwen大模型，优化大模型在逻辑推理上的回答效果。分析了其步骤，给出了其代码块。

2024-10-12 12:22:34 1732

原创大模型微调中的process_fun函数是干嘛的？

详细分析了大模型微调中的process_fun函数的作用，并给出示例分析

2024-10-12 12:01:46 703

原创大模型LoRA微调过程

详细介绍了LoRA微调大模型的过程，包括使用LoRA的原因、基本原理、优点等。

2024-10-11 14:52:33 1604

原创 LoRA为什么只对部分层微调？

总结了LoRA只对部分网络层微调的多种原因

2024-10-11 14:20:36 1245

原创 peft.LoraConfig()参数说明

LoRA微调函数peft.LoraConfig()参数说明

2024-10-11 11:36:10 2571

原创自回归语言模型与大语言模型（CLM和LLM）的区别

区分了自回归模型和大语言模型的概念

2024-10-11 11:14:17 3648

原创生成式模型都是自回归模型吗？

将自回归模型与生成式模型概念进行区分，并例举了多种生成式模型的相关概念加以区分

2024-10-11 11:03:53 847

原创什么是自回归语言模型（Causal Language Modeling）？

详细介绍了啥是自回归模型，它的特点和一些应用场景

2024-10-11 10:59:15 1624

原创大模型——如何实现超长多轮对话

分析了多轮对话的难点和现有的一些解决思路

2024-10-10 16:38:39 7387

原创大模型在多轮对话中的“massage“

大模型的massage如何工作的，尤其在多轮对话中，如何设计，这应该是正确使用大模型的必备知识！

2024-10-08 17:42:42 1338

原创让大模型不乱输出的参数

大模型的常见参数介绍

2024-10-08 17:35:51 992

原创超快捷的大模型下载方式

大模型一般很大，在部署的时候寻求快速的下载方法很重要。这里介绍了多种大模型下载方法，欢迎交流！

2024-10-08 17:31:18 621

原创大模型2-初试大模型+RAG

初步将大模型与检索增强生成（RAG）技术结合起来，使用yuan和qwen两种大模型进行试验，对比添加RAG前后的结果

2024-10-08 16:13:04 1337

原创大模型1-本地部署实现交互问答

在本地部署大模型，并构建问答对话，实现大模型交互问答部署，本文以yuan和qwen为例。

2024-10-08 13:54:11 1409

原创 “AutoModelForCausalLM.from_pretrained“参数说明

AutoModelForCausalLM.from_pretrained参数说明

2024-10-08 12:44:31 9190

原创 “AutoTokenizer.from_pretrained“参数说明

AutoTokenizer.from_pretrained参数说明

2024-10-08 12:04:35 5251

原创 YOLOv3详解

YOLOv3在之前网络的基础上完善了主干网络；使用了三种大小的特征图进行融合，使得特征提取的细粒度更好；每个网格赋予了9个锚框，共三种尺度，有利于锚框与目标大小的吻合。YOLOv3的该进虽然很少，但却是很有效。...

2022-07-16 18:59:38 957

翻译 YOLOv3论文中英文对照翻译

我们提出了对YOLO的一些更新!我们做了一些小的设计改动，使其变得更好。我们还训练了这个新的网络，这个网络非常棒。它比上次大了一点，但更准确。不过它仍然很快，不用担心。在320×320的情况下，YOLOv3在28.2mAP的情况下运行22毫秒，与SSD一样准确，但速度快三倍。当我们看一下旧的0.5IOUmAP检测指标时，YOLOv3是相当好的。在TitanX上，它在51毫秒内实现了57.9个AP50，而RetinaNet在198毫秒内实现了57.5个AP50，性能相似但快3.8倍。...

2022-07-16 16:38:49 1676

原创 YOLOv2详解

1、YOLOv2比YOLOv1检测性能更强，速度更快，并且可以在各种图像尺寸下运行，在速度和准确性之间提供了平稳的权衡（因为小尺寸图片检测的更快）2、YOLOv2可以识别超过9000个类别。

2022-07-16 16:16:29 1361

翻译 YOLOv2论文中英文对照翻译

我们介绍了YOLO9000，一个最先进的实时目标检测系统，可以检测超过9000个目标类别。首先，我们提出了对YOLO检测方法的各种改进，这些改进既是新的，也是来自先前的工作。改进后的模型YOLOv2在标准检测任务上是最先进的，如PASCALVOC和COCO。使用一种新的、多尺度的训练方法，同一个YOLOv2模型可以在不同的规模下运行，在速度和准确性之间提供了一个简单的权衡。在67FPS时，YOLOv2在VOC2007上得到76.8mAP。......

2022-07-16 16:04:06 2504

使用LoRA微调qwen模型优化模型推理效果

资源包含数据集文件、训练环境搭建教程、LoRA微调python代码，适用于初学者初步学习LoRA微调步骤和框架搭建

2024-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

IT修炼家优快云认证博客专家优快云认证企业博客

码龄7年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

49: 原创

9万+: 周排名

4万+: 总排名

12万+: 访问

: 等级

1339: 积分

362: 粉丝

652: 获赞

5: 评论

739: 收藏

私信

关注

热门文章

分类专栏

最新评论

auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式
IT修炼家: 试试pip install -vvv --no-build-isolation -e .
auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式
weixin_45132054: 大佬，为什么我这里运行pip install . 之后会报错：ERROR: Directory '.' is not installable. Neither 'setup.py' nor 'pyproject.toml' found.呀？
【大模型报错】RuntimeError: CUDA error: no kernel image is available for execution on the device
奕生辰诺: 请问下vllm使用的是哪个版本？一直报这个错误
两张4090极限部署qwen模型，72b-int4版本能布上吗？
IT修炼家: 我当时使用普通调用方法，72B INIT 4可以正常运行，我这里问题都是vllm导致的，你也可以试试调整下参数，改下内存占用比例
两张4090极限部署qwen模型，72b-int4版本能布上吗？
john_yan008: 我72B INIT 4 ，运行2 4090, 能正常使用。但 vllm 有时候自己也会奔溃vllm.engine.multiprocessing.MQEngineDeadError: Engine loop is not running. Inspect the stacktrace to find the original error: RuntimeError('Error in model execution: CUDA error: an illegal memory access was encountered\nCUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.\nFor debugging consider passing CUDA_LAUNCH_BLOCKING=1\nCompile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.\n'). [rank1]:[E1217 14:53:03.144956834 ProcessGroupNCCL.cpp:1595] [PG ID 2 PG GUID 3 Rank 1] Process group watchdog thread terminated with exception: CUDA error: an illegal memory access was encountered CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1 Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.

最新文章

提示

确定要删除当前文章？

取消删除