Mr.Lee jack-优快云博客

通过这个简单的示例，我们展示了如何使用CUDA进行半精度浮点数的跨步处理。跨步处理技术可以有效地利用GPU的并行计算能力，适用于处理大规模数据的场景。随着深度学习和高性能计算的不断发展，掌握这些技术将对开发者的工作大有裨益。希望这篇博客能帮助你更好地理解CUDA和半精度浮点数的处理。如果你有任何问题或建议，欢迎在评论区留言！

2024-12-26 15:59:23 506

原创【C++ 数据对齐与模板结构体】

在C++中，理解数据对齐的概念对于编写高效的代码至关重要。通过使用模板和alignas关键字，我们可以更好地控制数据在内存中的布局，从而优化程序的性能。

2024-12-26 11:39:36 315

原创【Qwen2.5 Agent 框架能力测试】

【代码】【Qwen2.5 Agent 框架能力测试】

2024-10-29 18:07:43 316

原创【Gloo协议验证多机异构模型训练：NV-GPU, 国产S60】

通过gloo通信，可以将各家芯片通信联通通过梯度更新实验，证明方式可行。

2024-10-24 11:45:50 997

原创【yolov5s-基于燧原S60运行的性能测试】

【代码】【yolov5s-基于燧原S60运行的性能测试】

2024-10-16 16:13:25 822

原创【ubuntu系统更新内核】

在使用Ubuntu 22.04 LTS的过程中，我遇到了一些虚拟机（VM）无故当掉的问题。经过调查，我决定将内核版本从5.15.0降级到5.13.0，以期解决这些问题。

2024-10-14 22:48:47 843

原创【自注意力与Transformer架构在自然语言处理中的演变与应用】

在自然语言处理（NLP）领域，序列到序列（seq2seq）模型和Transformer架构的出现，极大地推动了机器翻译、文本生成和其他语言任务的进展。传统的seq2seq模型通常依赖于循环神经网络（RNN）来处理输入序列，并通过编码器-解码器结构进行信息传递。然而，这种方法在处理长序列时存在一定的局限性，主要体现在信息的丢失和长距离依赖的建模能力不足。为了解决这些问题，Transformer模型于2017年被提出。

2024-10-10 11:39:37 1288

原创【FlagScale】异构算力混合训练方案

算力需求的高峰：随着人工智能（AI）和生成内容（AIGC）的发展，对计算资源的需求急剧增加。尤其是参数规模达到数百亿的大模型训练，需要大量的计算资源。算力市场供应紧张：目前，算力市场供应紧张，获取大量相同型号的AI训练加速卡（如GPU）来训练大模型变得困难。资源墙问题：企业在不同阶段购买了不同代际或不同厂商的AI加速硬件，这些硬件在数据中心中形成了多个“资源墙”，难以合池使用，限制了大规模异构混合训练的实现。

2024-10-08 14:54:13 1345

原创【git lfs 问题记录】

【代码】【git lfs 问题记录】

2024-09-27 10:15:42 536

原创【使用Hey对vllm接口压测】模型并发能力

【代码】【使用Hey对vllm接口压测】模型并发能力。

2024-09-20 22:56:16 914

原创【LLM Transparency Tool】用于深入分析和理解大型语言模型（LLM）工作原理的工具

LLM Transparency Tool 是一个用于深入分析和理解大型语言模型（LLM）工作原理的工具，旨在增加这些复杂系统的透明度。它提供了一个交互式界面，用户可以通过它观察、分析模型对特定输入（prompts）的反应，以及模型内部的决策过程。

2024-06-26 18:13:34 1159

原创【LM-Debugger】让研究人员与开发者能够深入洞察并干预模型的预测过程，开启了模型透明度和可解释性的一扇新门

通过LM-Debugger，用户可以细粒度地解释Transformer模型内部的预测构建过程，并通过识别和调整特定的FFN子更新来干预和控制模型的预测结果。工具提供了直观的可视化界面，使用户能够理解模型内部的参数和数据流向，并根据需要进行有效的干预。这种方法大大增强了模型的透明度和可控性。

2024-06-26 09:45:22 1122

原创【Transformer Debugger】OpenAI开源大模型调测工具--可以在训练大模型之前理解模型的运行情况并干预

TDB允许在编码之前快速地探索模型的工作原理，它能够介入模型的前向传播过程，让我们可以直观地看到某个特定操作如何影响模型的行为。例如，我们可以利用它来探讨“为什么面对同一个输入提示，模型会选择输出Token A而不是Token B？”或是“为什么在某个特定的输入下，某个注意力机制（Attention Head）会偏好于Token T？

2024-06-25 16:26:22 493

原创【vLLM】核心技术PagedAttention，调度原理

vLLM通过借鉴虚拟(Virtual)内存的原理，采用固定大小的块和动态映射的方式，有效地管理了内存，减少了内存浪费vLLM通过PagedAttention技术和“先来先服务（FCFS），后来先抢占，gpu不够就先swap到cpu上”的调度策略(Scheduler)，在1个推理阶段处理尽可能多的请求，解决高并发场景下的推理吞吐问题。这就是整个vLLM运作的核心思想当一堆请求来到vLLM服务器上时，按照First-Come-First-Serve（FCFS）原则，优先处理那些最早到来的请求。

2024-06-21 15:49:10 2630 1

原创 ComfyUI-常见插件安装说明以及地址

ComfyUI常见插件安装说明以及地址

2024-06-16 15:52:12 4122

原创本地模型一键上传modelscope

本地模型一键上传modelscope。

2024-06-15 14:49:58 844 1

原创 ComfyUI-全民舞王-MusePose

ComfyUI-全民舞王-MusePose。

2024-06-14 16:48:54 1034

原创 ComfyUI 快速搭建流程

ComfyUI 快速搭建流程。

2024-06-12 11:01:26 584

原创【Amis Low Code 结合FastAPI进行前端框架开发】

【代码】【Amis Low Code 结合FastAPI进行前端框架开发】

2023-12-09 19:58:07 980

原创宇宙中可能存在的另外一种生命体-硅基生命

百科中定义了生命具有能量代谢功能，能进行能量转换能够产生应激反应能够自我繁衍生成发育，必须是在变化的探寻生命的2大准则有生命有生存条件有氧，水，碳，适宜的生存条件（前3个比较容易满足）

2023-11-29 14:29:43 1380

原创【使用vscode在线web搭建开发环境--code-server搭建】

快速搭建云开发环境

2023-11-18 19:43:06 1311

原创【CUDA编程--编程模型简介&算子开发流程】

CUDA全称（Compute Unified Device Architecture）统一计算架构，是NVIDIA推出的并行计算平台深度学习加速：对于神经网络，无论是离线训练还是在线推理，都有巨量的矩阵、归一化、softmax等运算，且其中有非常多的并行计算，非常适合用GPU来进行运算加速一般来说，应用程序混合有并行部分和顺序部分，因此系统设计时混合使用 GPU 和 CPU，以最大限度地提高整体性能。具有高度并行性的应用程序可以利用 GPU 的大规模并行特性来实现比 CPU 更高的性能。

2023-11-13 20:23:54 5122 1

原创【pytorch源码分析--torch执行流程与编译原理】

aten: A Tensor Library的缩写。与Tensor相关的内容都放在这个目录下。如Tensor的定义、存储、Tensor间的操作（即算子/OP）等可以看到在aten/src/Aten目录下，算子实现都在native/目录中。其中有CPU的算子实现，以及CUDA的算子实现（cuda/）等torch: 即PyTorch的前端代码。我们用户在import torch时实际引入的是这个目录。其中包括前端的Python文件，也包括高性能的c++底层实现（csrc/）。

2023-11-06 20:35:20 3775 1

原创利用nicegui开发ai工具示例

【代码】利用nicegui开发ai工具示例。

2023-10-26 21:16:02 648 1

原创如何利用niceGUI构建一个流式单轮对话界面

【代码】如何利用niceGUI构建一个流式单轮对话界面。

2023-10-01 21:03:17 893

原创大模型tokenizer流式响应解决词句连贯性问题

大模型tokenizer流式响应解决词句连贯性问题

2023-09-09 16:37:34 427

原创西部AI小镇-构建自主虚拟世界

生成代理起床，做早餐，然后去上班；艺术家作画，作家写作；他们形成意见、互相关注并发起对话；他们在计划第二天时会记住并反思过去的日子。为了实现生成代理，描述了一种架构，该架构扩展了大型语言模型，以使用自然语言存储代理经验的完整记录，随着时间的推移将这些记忆合成为更高级别的反射，并动态检索它们以规划行为。实例化生成代理来填充受《模拟人生》启发的交互式沙箱环境，最终用户可以使用自然语言与一个由 25 个代理组成的小镇进行交互。

2023-08-25 17:19:33 672

原创 chatGPT 本地知识库问答原理实践

【代码】chatGPT 本地知识库问答原理实践。

2023-08-10 16:37:41 297

原创如何准备远程开发环境

远程开发机配置

2023-07-24 19:49:54 347

原创大语言模型的百家齐放

大模型百家齐放及历史演进

2023-07-02 14:23:22 2065

原创 nginx如何代理转发第三方https网站

nginx如何代理转发第三方https网站

2023-05-08 10:01:17 3893

原创 Triton Server 快速入门

Triton提供了一个叫做instance-group的模型配置项，允许指定每一个模型允许的并发实例的数量,这些并发的模型数量称之为一个instance。默认情况下，Triton是一个GPU上放一个模型，一次只推理一份数据。但通过设置模型的instance_group参数，可以对模型的并发实例数据量进行扩充。2.–model-control-mode=poll该参数用于启动模型热更新，当模型文件发生变化，或者新增版本时，程序先启动新的实例版本出来，在将旧版本或者实例卸载掉。

2023-04-04 11:53:13 3351 1

sd-sv3d 适配生成

redis思维导图.docx

HADOOP生态系统.docx

空空如也