
Ai
文章平均质量分 65
Mr.Lee jack
这个作者很懒,什么都没留下…
展开
-
【清华团队Ktransformers 单卡部署deepseek R1满血版】
【清华团队Ktransformers 单卡部署deepseek R1满血版】原创 2025-03-05 11:39:36 · 316 阅读 · 0 评论 -
【vLLM大模型TPS测试三部曲】
【代码】【vLLM大模型TPS测试三部曲】原创 2024-12-29 13:12:21 · 368 阅读 · 0 评论 -
【Qwen2.5 Agent 框架能力测试】
【代码】【Qwen2.5 Agent 框架能力测试】原创 2024-10-29 18:07:43 · 316 阅读 · 0 评论 -
【Gloo协议验证多机异构模型训练:NV-GPU, 国产S60】
通过gloo通信,可以将各家芯片通信联通通过梯度更新实验,证明方式可行。原创 2024-10-24 11:45:50 · 998 阅读 · 0 评论 -
【yolov5s-基于燧原S60运行的性能测试】
【代码】【yolov5s-基于燧原S60运行的性能测试】原创 2024-10-16 16:13:25 · 822 阅读 · 0 评论 -
【LLM Transparency Tool】用于深入分析和理解大型语言模型(LLM)工作原理的工具
LLM Transparency Tool 是一个用于深入分析和理解大型语言模型(LLM)工作原理的工具,旨在增加这些复杂系统的透明度。它提供了一个交互式界面,用户可以通过它观察、分析模型对特定输入(prompts)的反应,以及模型内部的决策过程。原创 2024-06-26 18:13:34 · 1159 阅读 · 0 评论 -
【LM-Debugger】让研究人员与开发者能够深入洞察并干预模型的预测过程,开启了模型透明度和可解释性的一扇新门
通过LM-Debugger,用户可以细粒度地解释Transformer模型内部的预测构建过程,并通过识别和调整特定的FFN子更新来干预和控制模型的预测结果。工具提供了直观的可视化界面,使用户能够理解模型内部的参数和数据流向,并根据需要进行有效的干预。这种方法大大增强了模型的透明度和可控性。原创 2024-06-26 09:45:22 · 1122 阅读 · 0 评论 -
【Transformer Debugger】OpenAI开源大模型调测工具--可以在训练大模型之前理解模型的运行情况并干预
TDB允许在编码之前快速地探索模型的工作原理,它能够介入模型的前向传播过程,让我们可以直观地看到某个特定操作如何影响模型的行为。例如,我们可以利用它来探讨“为什么面对同一个输入提示,模型会选择输出Token A而不是Token B?”或是“为什么在某个特定的输入下,某个注意力机制(Attention Head)会偏好于Token T?原创 2024-06-25 16:26:22 · 493 阅读 · 0 评论 -
【vLLM】核心技术PagedAttention,调度原理
vLLM通过借鉴虚拟(Virtual)内存的原理,采用固定大小的块和动态映射的方式,有效地管理了内存,减少了内存浪费vLLM通过PagedAttention技术和“先来先服务(FCFS),后来先抢占,gpu不够就先swap到cpu上”的调度策略(Scheduler),在1个推理阶段处理尽可能多的请求,解决高并发场景下的推理吞吐问题。这就是整个vLLM运作的核心思想当一堆请求来到vLLM服务器上时,按照First-Come-First-Serve(FCFS)原则,优先处理那些最早到来的请求。原创 2024-06-21 15:49:10 · 2633 阅读 · 1 评论 -
ComfyUI-常见插件安装说明以及地址
ComfyUI常见插件安装说明以及地址原创 2024-06-16 15:52:12 · 4148 阅读 · 0 评论 -
本地模型一键上传modelscope
本地模型一键上传modelscope。原创 2024-06-15 14:49:58 · 845 阅读 · 0 评论 -
ComfyUI-全民舞王-MusePose
ComfyUI-全民舞王-MusePose。原创 2024-06-14 16:48:54 · 1034 阅读 · 0 评论 -
ComfyUI 快速搭建流程
ComfyUI 快速搭建流程。原创 2024-06-12 11:01:26 · 584 阅读 · 0 评论 -
宇宙中可能存在的另外一种生命体-硅基生命
百科中定义了生命具有能量代谢功能,能进行能量转换能够产生应激反应能够自我繁衍生成发育,必须是在变化的探寻生命的2大准则有生命有生存条件有氧,水,碳,适宜的生存条件(前3个比较容易满足)原创 2023-11-29 14:29:43 · 1380 阅读 · 0 评论 -
【CUDA编程--编程模型简介&算子开发流程】
CUDA全称(Compute Unified Device Architecture)统一计算架构,是NVIDIA推出的并行计算平台深度学习加速:对于神经网络,无论是离线训练还是在线推理,都有巨量的矩阵、归一化、softmax等运算,且其中有非常多的并行计算,非常适合用GPU来进行运算加速一般来说,应用程序混合有并行部分和顺序部分,因此系统设计时混合使用 GPU 和 CPU,以最大限度地提高整体性能。具有高度并行性的应用程序可以利用 GPU 的大规模并行特性来实现比 CPU 更高的性能。原创 2023-11-13 20:23:54 · 5134 阅读 · 1 评论 -
【pytorch源码分析--torch执行流程与编译原理】
aten: A Tensor Library的缩写。与Tensor相关的内容都放在这个目录下。如Tensor的定义、存储、Tensor间的操作(即算子/OP)等可以看到在aten/src/Aten目录下,算子实现都在native/目录中。其中有CPU的算子实现,以及CUDA的算子实现(cuda/)等torch: 即PyTorch的前端代码。我们用户在import torch时实际引入的是这个目录。其中包括前端的Python文件,也包括高性能的c++底层实现(csrc/)。原创 2023-11-06 20:35:20 · 3779 阅读 · 0 评论 -
如何利用niceGUI构建一个流式单轮对话界面
【代码】如何利用niceGUI构建一个流式单轮对话界面。原创 2023-10-01 21:03:17 · 894 阅读 · 0 评论 -
大模型tokenizer流式响应解决词句连贯性问题
大模型tokenizer流式响应解决词句连贯性问题原创 2023-09-09 16:37:34 · 428 阅读 · 0 评论 -
西部AI小镇-构建自主虚拟世界
生成代理起床,做早餐,然后去上班;艺术家作画,作家写作;他们形成意见、互相关注并发起对话;他们在计划第二天时会记住并反思过去的日子。为了实现生成代理,描述了一种架构,该架构扩展了大型语言模型,以使用自然语言存储代理经验的完整记录,随着时间的推移将这些记忆合成为更高级别的反射,并动态检索它们以规划行为。实例化生成代理来填充受《模拟人生》启发的交互式沙箱环境,最终用户可以使用自然语言与一个由 25 个代理组成的小镇进行交互。原创 2023-08-25 17:19:33 · 672 阅读 · 0 评论 -
chatGPT 本地知识库问答原理实践
【代码】chatGPT 本地知识库问答原理实践。原创 2023-08-10 16:37:41 · 297 阅读 · 0 评论 -
大语言模型的百家齐放
大模型百家齐放及历史演进原创 2023-07-02 14:23:22 · 2065 阅读 · 0 评论