自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(166)
  • 资源 (2)
  • 收藏
  • 关注

原创 【Cuda 编程思想】手写一个量化反量化算子Quant

【代码】【Cuda 编程思想】手写一个量化反量化算子Quant。

2025-04-03 12:03:02 177

原创 【Cuda 编程思想】案例分析--DeepSpeed量化cuda算子

【代码】【Cuda 编程思想】案例分析--DeepSpeed量化cuda算子。

2025-04-02 16:13:23 522

原创 【Cuda 编程思想】理解CUDA中的线程协作

线程协作是CUDA编程中的一个核心概念,指的是线程之间相互配合完成任务的方式。在GPU上,成千上万的线程同时运行,如何让它们高效协同工作是提高性能的关键。

2025-04-02 14:52:49 243

原创 【Cuda 编程思想】CUDA线程执行原理

【代码】【Cuda 编程思想】CUDA线程执行原理。

2025-04-02 11:25:03 513

原创 【清华团队Ktransformers 单卡部署deepseek R1满血版】

【清华团队Ktransformers 单卡部署deepseek R1满血版】

2025-03-05 11:39:36 309

原创 【SSH端口转发:实现安全的远程端口映射】

SSH端口转发是一个强大的网络工具,通过本文介绍的脚本,我们可以快速建立一个安全的端口转发通道。这个脚本不仅实现了基本的端口转发功能,还包含了自动清理、保活等实用特性,适合在生产环境中使用。希望这篇文章对你理解和使用SSH端口转发有所帮助!

2025-01-19 10:38:00 862

原创 【vLLM大模型TPS测试三部曲】

【代码】【vLLM大模型TPS测试三部曲】

2024-12-29 13:12:21 368

原创 【使用CUDA进行半精度浮点数处理的跨步测试】

通过这个简单的示例,我们展示了如何使用CUDA进行半精度浮点数的跨步处理。跨步处理技术可以有效地利用GPU的并行计算能力,适用于处理大规模数据的场景。随着深度学习和高性能计算的不断发展,掌握这些技术将对开发者的工作大有裨益。希望这篇博客能帮助你更好地理解CUDA和半精度浮点数的处理。如果你有任何问题或建议,欢迎在评论区留言!

2024-12-26 15:59:23 506

原创 【C++ 数据对齐与模板结构体】

在C++中,理解数据对齐的概念对于编写高效的代码至关重要。通过使用模板和alignas关键字,我们可以更好地控制数据在内存中的布局,从而优化程序的性能。

2024-12-26 11:39:36 315

原创 【Qwen2.5 Agent 框架能力测试】

【代码】【Qwen2.5 Agent 框架能力测试】

2024-10-29 18:07:43 316

原创 【Gloo协议验证多机异构模型训练:NV-GPU, 国产S60】

通过gloo通信,可以将各家芯片通信联通通过梯度更新实验,证明方式可行。

2024-10-24 11:45:50 997

原创 【yolov5s-基于燧原S60运行的性能测试】

【代码】【yolov5s-基于燧原S60运行的性能测试】

2024-10-16 16:13:25 822

原创 【ubuntu系统更新内核】

在使用Ubuntu 22.04 LTS的过程中,我遇到了一些虚拟机(VM)无故当掉的问题。经过调查,我决定将内核版本从5.15.0降级到5.13.0,以期解决这些问题。

2024-10-14 22:48:47 843

原创 【CLIP原理】

CLIP原理图实验结论

2024-10-10 15:51:16 217

原创 【自注意力与Transformer架构在自然语言处理中的演变与应用】

在自然语言处理(NLP)领域,序列到序列(seq2seq)模型和Transformer架构的出现,极大地推动了机器翻译、文本生成和其他语言任务的进展。传统的seq2seq模型通常依赖于循环神经网络(RNN)来处理输入序列,并通过编码器-解码器结构进行信息传递。然而,这种方法在处理长序列时存在一定的局限性,主要体现在信息的丢失和长距离依赖的建模能力不足。为了解决这些问题,Transformer模型于2017年被提出。

2024-10-10 11:39:37 1288

原创 【FlagScale】异构算力混合训练方案

算力需求的高峰:随着人工智能(AI)和生成内容(AIGC)的发展,对计算资源的需求急剧增加。尤其是参数规模达到数百亿的大模型训练,需要大量的计算资源。算力市场供应紧张:目前,算力市场供应紧张,获取大量相同型号的AI训练加速卡(如GPU)来训练大模型变得困难。资源墙问题:企业在不同阶段购买了不同代际或不同厂商的AI加速硬件,这些硬件在数据中心中形成了多个“资源墙”,难以合池使用,限制了大规模异构混合训练的实现。

2024-10-08 14:54:13 1345

原创 【git lfs 问题记录】

【代码】【git lfs 问题记录】

2024-09-27 10:15:42 536

原创 【使用Hey对vllm接口压测】模型并发能力

【代码】【使用Hey对vllm接口压测】模型并发能力。

2024-09-20 22:56:16 914

原创 【LLM Transparency Tool】用于深入分析和理解大型语言模型(LLM)工作原理的工具

LLM Transparency Tool 是一个用于深入分析和理解大型语言模型(LLM)工作原理的工具,旨在增加这些复杂系统的透明度。它提供了一个交互式界面,用户可以通过它观察、分析模型对特定输入(prompts)的反应,以及模型内部的决策过程。

2024-06-26 18:13:34 1159

原创 【LM-Debugger】让研究人员与开发者能够深入洞察并干预模型的预测过程,开启了模型透明度和可解释性的一扇新门

通过LM-Debugger,用户可以细粒度地解释Transformer模型内部的预测构建过程,并通过识别和调整特定的FFN子更新来干预和控制模型的预测结果。工具提供了直观的可视化界面,使用户能够理解模型内部的参数和数据流向,并根据需要进行有效的干预。这种方法大大增强了模型的透明度和可控性。

2024-06-26 09:45:22 1122

原创 【Transformer Debugger】OpenAI开源大模型调测工具--可以在训练大模型之前理解模型的运行情况并干预

TDB允许在编码之前快速地探索模型的工作原理,它能够介入模型的前向传播过程,让我们可以直观地看到某个特定操作如何影响模型的行为。例如,我们可以利用它来探讨“为什么面对同一个输入提示,模型会选择输出Token A而不是Token B?”或是“为什么在某个特定的输入下,某个注意力机制(Attention Head)会偏好于Token T?

2024-06-25 16:26:22 493

原创 【vLLM】核心技术PagedAttention,调度原理

vLLM通过借鉴虚拟(Virtual)内存的原理,采用固定大小的块和动态映射的方式,有效地管理了内存,减少了内存浪费vLLM通过PagedAttention技术和“先来先服务(FCFS),后来先抢占,gpu不够就先swap到cpu上”的调度策略(Scheduler),在1个推理阶段处理尽可能多的请求,解决高并发场景下的推理吞吐问题。这就是整个vLLM运作的核心思想当一堆请求来到vLLM服务器上时,按照First-Come-First-Serve(FCFS)原则,优先处理那些最早到来的请求。

2024-06-21 15:49:10 2630 1

原创 ComfyUI-常见插件安装说明以及地址

ComfyUI常见插件安装说明以及地址

2024-06-16 15:52:12 4122

原创 本地模型一键上传modelscope

本地模型一键上传modelscope。

2024-06-15 14:49:58 844 1

原创 ComfyUI-全民舞王-MusePose

ComfyUI-全民舞王-MusePose。

2024-06-14 16:48:54 1034

原创 ComfyUI 快速搭建流程

ComfyUI 快速搭建流程。

2024-06-12 11:01:26 584

原创 【Amis Low Code 结合FastAPI进行前端框架开发】

【代码】【Amis Low Code 结合FastAPI进行前端框架开发】

2023-12-09 19:58:07 980

原创 宇宙中可能存在的另外一种生命体-硅基生命

百科中定义了生命具有能量代谢功能,能进行能量转换能够产生应激反应能够自我繁衍生成发育,必须是在变化的探寻生命的2大准则有生命有生存条件有氧,水,碳,适宜的生存条件(前3个比较容易满足)

2023-11-29 14:29:43 1380

原创 【使用vscode在线web搭建开发环境--code-server搭建】

快速搭建云开发环境

2023-11-18 19:43:06 1311

原创 【CUDA编程--编程模型简介&算子开发流程】

CUDA全称(Compute Unified Device Architecture)统一计算架构,是NVIDIA推出的并行计算平台深度学习加速:对于神经网络,无论是离线训练还是在线推理,都有巨量的矩阵、归一化、softmax等运算,且其中有非常多的并行计算,非常适合用GPU来进行运算加速一般来说,应用程序混合有并行部分和顺序部分,因此系统设计时混合使用 GPU 和 CPU,以最大限度地提高整体性能。具有高度并行性的应用程序可以利用 GPU 的大规模并行特性来实现比 CPU 更高的性能。

2023-11-13 20:23:54 5122 1

原创 【pytorch源码分析--torch执行流程与编译原理】

aten: A Tensor Library的缩写。与Tensor相关的内容都放在这个目录下。如Tensor的定义、存储、Tensor间的操作(即算子/OP)等可以看到在aten/src/Aten目录下,算子实现都在native/目录中。其中有CPU的算子实现,以及CUDA的算子实现(cuda/)等torch: 即PyTorch的前端代码。我们用户在import torch时实际引入的是这个目录。其中包括前端的Python文件,也包括高性能的c++底层实现(csrc/)。

2023-11-06 20:35:20 3775 1

原创 利用nicegui开发ai工具示例

【代码】利用nicegui开发ai工具示例。

2023-10-26 21:16:02 648 1

原创 如何利用niceGUI构建一个流式单轮对话界面

【代码】如何利用niceGUI构建一个流式单轮对话界面。

2023-10-01 21:03:17 893

原创 大模型tokenizer流式响应解决词句连贯性问题

大模型tokenizer流式响应解决词句连贯性问题

2023-09-09 16:37:34 427

原创 西部AI小镇-构建自主虚拟世界

生成代理起床,做早餐,然后去上班;艺术家作画,作家写作;他们形成意见、互相关注并发起对话;他们在计划第二天时会记住并反思过去的日子。为了实现生成代理,描述了一种架构,该架构扩展了大型语言模型,以使用自然语言存储代理经验的完整记录,随着时间的推移将这些记忆合成为更高级别的反射,并动态检索它们以规划行为。实例化生成代理来填充受《模拟人生》启发的交互式沙箱环境,最终用户可以使用自然语言与一个由 25 个代理组成的小镇进行交互。

2023-08-25 17:19:33 672

原创 chatGPT 本地知识库问答原理实践

【代码】chatGPT 本地知识库问答原理实践。

2023-08-10 16:37:41 297

原创 如何准备远程开发环境

远程开发机配置

2023-07-24 19:49:54 347

原创 大语言模型的百家齐放

大模型百家齐放及历史演进

2023-07-02 14:23:22 2065

原创 nginx如何代理转发第三方https网站

nginx如何代理转发第三方https网站

2023-05-08 10:01:17 3893

原创 Triton Server 快速入门

Triton提供了一个叫做instance-group的模型配置项,允许指定每一个模型允许的并发实例的数量,这些并发的模型数量称之为一个instance。默认情况下,Triton是一个GPU上放一个模型,一次只推理一份数据。但通过设置模型的instance_group参数,可以对模型的并发实例数据量进行扩充。2.–model-control-mode=poll该参数用于启动模型热更新,当模型文件发生变化,或者新增版本时,程序先启动新的实例版本出来,在将旧版本或者实例卸载掉。

2023-04-04 11:53:13 3351 1

sd-sv3d 适配生成

sd-sv3d 适配生成

2024-06-12

redis思维导图.docx

redis思维导图,文档中另附链接,让你快速应对redis面试复习,对redis使用场景,以及redis存储原理,查询原理,RDB,AOF等进行汇总,一图快速记忆redis,面试BAT轻松搞定

2020-09-03

HADOOP生态系统.docx

hadoop大数据生态,大数据分布式引擎数据分析,思维导图,知识点总结,快速掌握,包括hadoop spark hive elasticsearch kafka

2020-09-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除