- 博客(166)
- 资源 (2)
- 收藏
- 关注
原创 【Cuda 编程思想】案例分析--DeepSpeed量化cuda算子
【代码】【Cuda 编程思想】案例分析--DeepSpeed量化cuda算子。
2025-04-02 16:13:23
522
原创 【Cuda 编程思想】理解CUDA中的线程协作
线程协作是CUDA编程中的一个核心概念,指的是线程之间相互配合完成任务的方式。在GPU上,成千上万的线程同时运行,如何让它们高效协同工作是提高性能的关键。
2025-04-02 14:52:49
243
原创 【清华团队Ktransformers 单卡部署deepseek R1满血版】
【清华团队Ktransformers 单卡部署deepseek R1满血版】
2025-03-05 11:39:36
309
原创 【SSH端口转发:实现安全的远程端口映射】
SSH端口转发是一个强大的网络工具,通过本文介绍的脚本,我们可以快速建立一个安全的端口转发通道。这个脚本不仅实现了基本的端口转发功能,还包含了自动清理、保活等实用特性,适合在生产环境中使用。希望这篇文章对你理解和使用SSH端口转发有所帮助!
2025-01-19 10:38:00
862
原创 【使用CUDA进行半精度浮点数处理的跨步测试】
通过这个简单的示例,我们展示了如何使用CUDA进行半精度浮点数的跨步处理。跨步处理技术可以有效地利用GPU的并行计算能力,适用于处理大规模数据的场景。随着深度学习和高性能计算的不断发展,掌握这些技术将对开发者的工作大有裨益。希望这篇博客能帮助你更好地理解CUDA和半精度浮点数的处理。如果你有任何问题或建议,欢迎在评论区留言!
2024-12-26 15:59:23
506
原创 【C++ 数据对齐与模板结构体】
在C++中,理解数据对齐的概念对于编写高效的代码至关重要。通过使用模板和alignas关键字,我们可以更好地控制数据在内存中的布局,从而优化程序的性能。
2024-12-26 11:39:36
315
原创 【ubuntu系统更新内核】
在使用Ubuntu 22.04 LTS的过程中,我遇到了一些虚拟机(VM)无故当掉的问题。经过调查,我决定将内核版本从5.15.0降级到5.13.0,以期解决这些问题。
2024-10-14 22:48:47
843
原创 【自注意力与Transformer架构在自然语言处理中的演变与应用】
在自然语言处理(NLP)领域,序列到序列(seq2seq)模型和Transformer架构的出现,极大地推动了机器翻译、文本生成和其他语言任务的进展。传统的seq2seq模型通常依赖于循环神经网络(RNN)来处理输入序列,并通过编码器-解码器结构进行信息传递。然而,这种方法在处理长序列时存在一定的局限性,主要体现在信息的丢失和长距离依赖的建模能力不足。为了解决这些问题,Transformer模型于2017年被提出。
2024-10-10 11:39:37
1288
原创 【FlagScale】异构算力混合训练方案
算力需求的高峰:随着人工智能(AI)和生成内容(AIGC)的发展,对计算资源的需求急剧增加。尤其是参数规模达到数百亿的大模型训练,需要大量的计算资源。算力市场供应紧张:目前,算力市场供应紧张,获取大量相同型号的AI训练加速卡(如GPU)来训练大模型变得困难。资源墙问题:企业在不同阶段购买了不同代际或不同厂商的AI加速硬件,这些硬件在数据中心中形成了多个“资源墙”,难以合池使用,限制了大规模异构混合训练的实现。
2024-10-08 14:54:13
1345
原创 【LLM Transparency Tool】用于深入分析和理解大型语言模型(LLM)工作原理的工具
LLM Transparency Tool 是一个用于深入分析和理解大型语言模型(LLM)工作原理的工具,旨在增加这些复杂系统的透明度。它提供了一个交互式界面,用户可以通过它观察、分析模型对特定输入(prompts)的反应,以及模型内部的决策过程。
2024-06-26 18:13:34
1159
原创 【LM-Debugger】让研究人员与开发者能够深入洞察并干预模型的预测过程,开启了模型透明度和可解释性的一扇新门
通过LM-Debugger,用户可以细粒度地解释Transformer模型内部的预测构建过程,并通过识别和调整特定的FFN子更新来干预和控制模型的预测结果。工具提供了直观的可视化界面,使用户能够理解模型内部的参数和数据流向,并根据需要进行有效的干预。这种方法大大增强了模型的透明度和可控性。
2024-06-26 09:45:22
1122
原创 【Transformer Debugger】OpenAI开源大模型调测工具--可以在训练大模型之前理解模型的运行情况并干预
TDB允许在编码之前快速地探索模型的工作原理,它能够介入模型的前向传播过程,让我们可以直观地看到某个特定操作如何影响模型的行为。例如,我们可以利用它来探讨“为什么面对同一个输入提示,模型会选择输出Token A而不是Token B?”或是“为什么在某个特定的输入下,某个注意力机制(Attention Head)会偏好于Token T?
2024-06-25 16:26:22
493
原创 【vLLM】核心技术PagedAttention,调度原理
vLLM通过借鉴虚拟(Virtual)内存的原理,采用固定大小的块和动态映射的方式,有效地管理了内存,减少了内存浪费vLLM通过PagedAttention技术和“先来先服务(FCFS),后来先抢占,gpu不够就先swap到cpu上”的调度策略(Scheduler),在1个推理阶段处理尽可能多的请求,解决高并发场景下的推理吞吐问题。这就是整个vLLM运作的核心思想当一堆请求来到vLLM服务器上时,按照First-Come-First-Serve(FCFS)原则,优先处理那些最早到来的请求。
2024-06-21 15:49:10
2630
1
原创 宇宙中可能存在的另外一种生命体-硅基生命
百科中定义了生命具有能量代谢功能,能进行能量转换能够产生应激反应能够自我繁衍生成发育,必须是在变化的探寻生命的2大准则有生命有生存条件有氧,水,碳,适宜的生存条件(前3个比较容易满足)
2023-11-29 14:29:43
1380
原创 【CUDA编程--编程模型简介&算子开发流程】
CUDA全称(Compute Unified Device Architecture)统一计算架构,是NVIDIA推出的并行计算平台深度学习加速:对于神经网络,无论是离线训练还是在线推理,都有巨量的矩阵、归一化、softmax等运算,且其中有非常多的并行计算,非常适合用GPU来进行运算加速一般来说,应用程序混合有并行部分和顺序部分,因此系统设计时混合使用 GPU 和 CPU,以最大限度地提高整体性能。具有高度并行性的应用程序可以利用 GPU 的大规模并行特性来实现比 CPU 更高的性能。
2023-11-13 20:23:54
5122
1
原创 【pytorch源码分析--torch执行流程与编译原理】
aten: A Tensor Library的缩写。与Tensor相关的内容都放在这个目录下。如Tensor的定义、存储、Tensor间的操作(即算子/OP)等可以看到在aten/src/Aten目录下,算子实现都在native/目录中。其中有CPU的算子实现,以及CUDA的算子实现(cuda/)等torch: 即PyTorch的前端代码。我们用户在import torch时实际引入的是这个目录。其中包括前端的Python文件,也包括高性能的c++底层实现(csrc/)。
2023-11-06 20:35:20
3775
1
原创 西部AI小镇-构建自主虚拟世界
生成代理起床,做早餐,然后去上班;艺术家作画,作家写作;他们形成意见、互相关注并发起对话;他们在计划第二天时会记住并反思过去的日子。为了实现生成代理,描述了一种架构,该架构扩展了大型语言模型,以使用自然语言存储代理经验的完整记录,随着时间的推移将这些记忆合成为更高级别的反射,并动态检索它们以规划行为。实例化生成代理来填充受《模拟人生》启发的交互式沙箱环境,最终用户可以使用自然语言与一个由 25 个代理组成的小镇进行交互。
2023-08-25 17:19:33
672
原创 Triton Server 快速入门
Triton提供了一个叫做instance-group的模型配置项,允许指定每一个模型允许的并发实例的数量,这些并发的模型数量称之为一个instance。默认情况下,Triton是一个GPU上放一个模型,一次只推理一份数据。但通过设置模型的instance_group参数,可以对模型的并发实例数据量进行扩充。2.–model-control-mode=poll该参数用于启动模型热更新,当模型文件发生变化,或者新增版本时,程序先启动新的实例版本出来,在将旧版本或者实例卸载掉。
2023-04-04 11:53:13
3351
1
redis思维导图.docx
2020-09-03
HADOOP生态系统.docx
2020-09-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人