Black_Rock_br-优快云博客

原创 NVIDIA AI加速实战营之（3）——TensorRT-LLM 模型自定义与实现

在深度学习领域，大型语言模型（LLMs）因其强大的自然语言处理能力而备受关注。然而，这些模型的推理效率往往受限于计算资源。NVIDIA的TensorRT-LLM库提供了一种解决方案，通过优化LLMs在NVIDIA GPU上的推理性能，使得这些模型能够更快地响应。本文将详细介绍如何自定义和实现TensorRT-LLM模型的过程，NVIDIA的资深工程师讲解具体实现自定义的课程。我们来实现最简单的自定义模型：创建自定义模型目录：定义模型类：在中注册模型：创建配置文件：构建模型引擎：这一步

2024-11-27 00:00:00 2302

原创 vLLM 等大模型推理性能监控：全方位策略与实践

随着大语言模型（LLM）的广泛应用，AI 推理应用的需求正以指数级的速度不断攀升。开源大模型 DeepSeek 以其出色的推理性能和高准确性，在开发者社区中迅速崭露头角，备受青睐。无论是企业级应用还是个人项目，DeepSeek 均已成为构建智能对话系统、内容生成工具以及复杂决策支持系统的核心驱动力。然而，随着模型规模的持续扩大以及推理请求量的急剧增加，无论是 DeepSeek 官方服务，还是各大云厂商所推出的推理应用，都逐渐开始显露出一系列性能瓶颈问题。

2025-04-04 01:01:12 668

原创 Linux运维常用命令汇总，轻松上手！

作为一名Linux运维工程师，日常工作中会频繁使用各种命令来管理系统、排查问题和维护服务器。以下是一些常用的命令及其用途，学会后，还可以用其编写shell脚本，工作效率将大大提升。这些命令是Linux运维工程师日常工作中最常用的工具，熟练掌握它们可以大大提高工作效率。1. 文件和目录操作。4. 用户和权限管理。10. 其他常用命令。

2025-04-02 10:31:01 343

原创 DeepSeek：AI幻觉困局的全球视野

因此，对于DeepSeek的幻觉问题，生物医药行业必须保持高度的关注和审慎的态度。同时，行业也需要加强与技术提供商的沟通与合作，共同探索解决幻觉问题的有效方法，以保障患者的生命安全和医疗质量。其高效的数据处理能力和精准的算法优化，使得行业内的许多企业开始重新审视自身的业务流程和技术架构，积极探索与DeepSeek合作或借鉴其技术的可能性。经过两个月的深度比较与横向测试，DeepSeek在带来行业变革、树立民族信心的同时，其幻觉问题也引起了生物医药行业的高度关注，毕竟在关乎人命的领域，幻觉的容错率极低。

2025-04-02 08:38:37 648

原创没有Docker Desktop，也能玩转容器的终极方案

--

2025-04-01 13:48:36 649

原创英伟达“破壁”！DeepSeek推理性能极限大揭秘

测试在B200系统上进行，参数设置为M=K=16384，N=17290。最新版本的CUTLASS为Blackwell架构引入了多项热门功能，进一步提升计算效率：- Grouped GEMM（分组GEMM）：能够高效并行处理多个“专家”计算，显著加速混合专家（MoE）模型的推理过程。- Mixed Input GEMM（混合输入GEMM）：支持量化内核，有效降低大型语言模型（LLM）权重对GPU显存的占用，提高资源利用效率。

2025-04-01 06:36:27 916

原创 2025 全球音乐 AI 大模型对决：技术革新引领商业变革浪潮

无论是旋律的诞生，还是工业化编曲的流程，AI 大模型都在以飞快的速度改变着行业的基本逻辑架构。在中国，昆仑万维依靠 Mureka 系列产品在技术领域登上了顶尖位置，与此同时，国际巨头 Suno 却陷入了版权争议的困境之中，这深刻地揭示出技术、商业以及伦理之间错综复杂的博弈关系。作为国际知名的AI作曲工具，擅长交响乐和影视配乐领域，但在生成灵活性和多样性方面表现相对有限，难以满足复杂或个性化的创作需求。专注于中英文歌词与乐谱的生成，为专业音乐人提供高效的创作辅助工具，助力快速完成音乐构思与制作。

2025-03-31 12:05:50 728

原创零训练的V2Edit黑科技：指令级视频魔法与3D场景大改，原画质无损打造爆款视频

通过以上方案，V2Edit在视频和3D场景编辑领域展现了强大的通用性和卓越的性能。V2Edit 借助预训练的视频扩散模型作为核心，构建了一个多功能的视频编辑框架，无需依赖配对数据集进行特定任务的训练。如下图2所示，该框架采用渐进式编辑策略，将复杂的编辑任务分解为多个更易于处理的子任务，逐步完成编辑目标。为了在实现高质量编辑的同时有效保留原始视频内容，本文提出了一种无需训练的保留控制机制。

2025-03-31 11:17:59 1156

原创字节开源版Manus来袭

在人工智能领域，Manus的出现无疑是一颗重磅炸弹，它凭借强大的通用Agent能力，迅速吸引了全球开发者和AI爱好者的目光。就在大家为一码难求而烦恼时，字节团队成功复刻了Manus，并将其开源，这一举动犹如春风拂面，为AI领域带来了新的生机。开源意味着更低的门槛和更高的可定制性，用户可以根据自己的需求，自由修改和优化系统提示。随着技术的不断进步和社区的持续贡献，字节开源版Manus有望在未来实现更多的功能和应用场景。总之，字节开源版Manus的出现，为AI领域带来了新的机遇和挑战。

2025-03-30 20:52:24 493

原创突破！开源金融推理大模型 Fin-R1 来袭：7B 参数展现强大性能

在当下大模型参数规模竞争愈发激烈的格局中，上海财经大学张立文教授团队携手财跃星辰重磅推出 Fin-R1。该模型仅以 7B 参数量，在金融推理任务表现上就能与 671B 参数量的行业标杆 DeepSeek-R1 相媲美，平均得分差距仅为 3 分。本文将深入剖析 Fin-R1 的数据构建、训练框架以及场景落地等全链路创新举措，探究小参数模型是如何打破金融 AI 领域效率和成本的双重瓶颈，为行业发展带来全新思路。

2025-03-30 20:38:41 552

原创 BlobCtrl来袭，开启元素级视觉编辑精细之旅，效果超震撼（北大、港中文、腾讯合作成果）

从数量上看，本文的方法以显著优势超越了之前的最佳方法，建立了新的最先进性能：在外观保真度上，本文的方法获得了87.2%的偏好率，而之前的最佳方法为82.5%；在视觉协调性上，偏好率为82.1%，而之前的最佳方法为80.3%。不过，值得庆幸的是，基于blob的表示本身具备天然支持深度感知合成的特性，这为后续的研究工作指明了一条极具潜力的发展方向。(2) 自监督训练范式，有效解耦并重新组合视觉元素的身份、语义和布局信息，同时消除了由不必要的相机运动和其他视频特定伪影引起的性能下降，这些问题困扰了之前的方法。

2025-03-27 23:46:55 761

原创解锁Docker新技能：本地一键实现Sora视频生成

通常情况下，传统服务生成视频可能需要数小时甚至更久，而Sora则能显著缩短这一时间，为用户提供更高效、更可控的创作体验。当我们浏览md文档后，就会发现，和大多数github项目一样，第一步就是安装环境。不同颜色表示下载完成与否，比如，我的界面上，蓝色表示下载完成，绿色表示正在下载中。恰巧的是，官网提供的方法中，除了conda，也有docker。项目结束后，我们在docker界面端就可以看到，最后一次构建的前面是一个绿色√。可以看到这个过程比较耗时，因为是在下载各种依赖包，有的包比较大，好几个G。

2025-03-27 11:28:10 757

原创使用 Cursor、MCP 和 Figma 实现工程化项目自动化，提升高达 200% 效率

在 Cursor 对话框中输入分享的Figma项目链接，发送后会发现它自动调用了 MCP tool：et_gigma_data 方法。2.4点击 Security 页签，找到 new token，点击进入填写信息，保存即可得到 token，复制备用。打开您的网络浏览器，访问 Cursor 的官方网站：https://www.cursor.com/cn。地址：https://github.com/GLips/Figma-Context-MCP。注意这里下载的不是软件，是安装包，安装包不大，因此下载很快。

2025-03-26 14:37:51 1690 1

原创 Token 经济驱动下，英伟达 AI 商业版图的三层逻辑重塑之旅

今年的GTC大会不仅是英伟达自身发展的重要里程碑，也被视为AI商用时代的开端。大会上，英伟达展示了从传统计算机技术公司向AI基础设施提供商的转型，同时揭示了数据中心从数据存储和应用托管的传统角色，逐步演变为“AI工厂”的新定位。此外，这也标志着Token经济催生了一个全新产业的到来。黄仁勋再次提到“买得越多理论”，如今的版本则是：“买的越多，赚的越多”（The more you buy, the more you make）。他期望通过Token经济实现这样的未来：用户购买越多，收益也越高。

2025-03-26 13:10:04 1034

原创解码未来：DeepSeek开源FlashMLA，推理加速核心技术，引领AI变革

DeepSeek 兑现了自己的诺言，开源了一款用于 Hopper GPU 的高效型 MLA 解码核：FlashMLA。项目地址：https://github.com/deepseek-ai/FlashMLA。

2025-03-23 20:54:39 301

原创 # vLLM 的局限：Ollama 如何用黑科技实现越级部署？

使用ragflow知识库来谈谈ollama的黑科技！--部署30b，还是很流畅的，但是推理能力确实比较弱-- 部署70b，通过不断地优化参数，最大tokens,4096 tokens没问题（还部署了一个bge-m3）--但是在ragflow中使用的时候，由于超出最大tokens,经常报内存溢出，因此给ragflow的官方提交了一个issue。官方很快就修复了，这块还是很赞的。

2025-03-23 13:10:41 682

原创 Cursor 引领开发革命，8 大 AI 测试工具助你掌控高效研发未来！

人工智能发展日新月异，AI 测试工具已成为提升软件研发效率的硬核利器。接下来，为大家揭晓 8 款超炫 AI 测试工具，助你轻松玩转高效测试，告别高维护成本，一键解锁全方位测试覆盖新技能。AI 测试工具正以风暴之势革新软件测试！它们轻松搞定重复任务，让测试更精准，成本一降再降， coverage（测试覆盖率）却飙升。Testim 的无代码测试超省心，Applitools 的视觉测试超犀利，Mabl 的低代码平台超易上手。每款工具都自带高光，满足不同团队的小心思。

2025-03-19 12:53:55 850

原创 NVLink/NVSwitch：撕碎传统，重铸高性能计算的辉煌圣殿

在数据洪流汹涌而至的数字时代，传统计算架构逐渐暴露出瓶颈。NVLink/NVSwitch 互联技术宛如一道划破天际的闪电，以颠覆性的姿态震撼登场。它不是简单的技术迭代，而是一场彻底的革命，以惊人的速度和强大的性能，打破旧有束缚，为高性能计算开启一扇通往巅峰的荣耀之门，让我们一同见证这一技术传奇的崛起。

2025-03-19 12:28:02 976

原创我的 Ollama 新伙伴！手把手教你搞定局域网与广域网访问设置

个人开发者基本本地部署框架基本会有ollama这个省事的工具。今天我就来聊聊olllama的安全网络访问设置吧！

2025-03-18 11:16:03 919

原创 LangChain 动态任务分发：开启大模型任务流的巅峰之术（三）

通过这种方式，我们构建了一个总路由机制，能够根据不同的学科问题，精准地将其分流到相应的链进行处理，从而实现高效的任务分发与管理。这种灵活而高效的设计，使其在面对多类型问题或任务时，能够游刃有余地应对各种复杂场景，例如根据不同用户输入的问题类别，精准调用相应的模型提示或算法。在每次循环中，从 `p` 中提取 `p['name']` 和 `p['description']`，并将它们组合成一段描述性的字符串，例如 “physics: 适合回答有关物理的问题”。而物理问题的链则具备处理物理现象和规律分析的能力。

2025-03-18 10:23:46 966

原创零检出反弹Shell：冷门语言完美绕过Windows Defender

Nim 是一门相对较新的编程语言，具有。

2025-03-17 11:28:51 743

原创 DeepSeek数据泄露，你的隐私可能已暴露

对于那些计划在本地部署DeepSeek或Ollama的用户来说，这些事件提醒我们在使用这些工具时必须格外小心，确保采取适当的安全措施来保护数据隐私和安全。-未经授权的接口访问**：未经授权的接口访问极可能导致敏感信息泄露或系统被恶意利用。1. 确保合法授权：在访问任何系统或接口之前，务必确保你拥有合法的授权。未经授权的访问可能导致法律后果。安全是技术探索的基石，只有在确保安全的前提下，我们才能真正享受新技术带来的便利和创新。3. 定期检查安全配置：定期检查系统和接口的安全配置，确保没有漏洞或配置错误。

2025-03-17 10:04:00 826

原创 “Open-Sora 2.0：引领开源新纪元的震撼发布！“

正式推出 Open-Sora 2.0 —— 一款全新开源的 SOTA 视频生成模型，仅（224张GPU）成功训练商业级11B参数视频生成大模型。今天，视频生成领域迎来开源革命！Open-Sora 2.0——全新开源的视频生成模型正式发布。权威评测 VBench 及用户偏好测试均证实其卓越表现，在多项关键指标上数百万美元训练成本的闭源模型。此次发布全面开源及，让高质量视频生成真正触手可及，进一步提升视频生成的可及性与可拓展性。

2025-03-13 12:35:21 477

原创微软开源PIKE-RAG：复杂私域知识推理能力超越GraphRAG，更懂“思考”的新利器

PIKE-RAG框架主要由几个基本模块组成，包括文档解析、知识抽取、知识存储、知识检索、知识组织、以知识为中心的推理以及任务分解与协调。在 PIKE-RAG 系统中，设计者采用了层次化、分阶段的实现策略，确保系统能逐步提升对复杂问题的处理能力。以下缩写被使用：“PA”代表文件解析，“KE”代表知识抽取，“RT”代表知识检索，“KO”代表知识组织，“KR”代表以知识为中心的推理。这种分类使得系统能根据问题的难度和性质，采用针对性的处理策略，从而 “量体裁衣” 地提升答案的准确性和逻辑性。大家可以去尝试一下，

2025-03-13 12:08:44 643

原创用vLLM部署DeepSeek，算力减半，吞吐量剧增。

它支持分布式张量并行推理和服务，利用先进的技术在多个GPU上优化性能，其核心功能基于Megatron-LM的张量并行算法，允许有效模型分布。引擎参数请查询网站：https://docs.vllm.ai/en/latest/serving/engine_args.html。高效的企业生产环境应该使用的一般都采用 vllm、sglang 进行部署，本文是用 vLLM 部署 DeepSeek-R1模型。--served-model-name API 中使用的模型名称。

2025-03-11 16:11:39 1087

原创吞吐量对抗一键安装！SGLang/VLLM/Ollama 横评大比拼

Continuous Batching 技术的运用，打破了传统批处理的局限，允许新请求随时加入正在处理的批次，有效避免了等待延迟的问题，让吞吐量实现了质的飞跃，最高可提升 24 倍（相较于原生 Transformers），显著提高了处理速度和效率。尽管在内存管理方面进行了优化，但整体显存需求仍然高于 Ollama，这意味着在硬件资源有限的情况下，可能会受到一定的限制，需要更强大的硬件支持来充分发挥其性能。在处理高并发请求时，需要手动调整参数，难以满足企业级场景的需求，更适合单机或小规模使用。

2025-03-11 06:50:39 1270

原创 llama.cpp框架下GGUF格式及量化参数全解析

在人工智能领域，语言模型的高效部署和推理一直是研究热点。随着模型规模的不断扩大，如何在有限的硬件资源上实现快速、高效的推理，成为了一个关键问题。`llama.cpp`框架以其出色的性能和灵活性，为这一问题提供了有效的解决方案。其中，GGUF格式和模型量化参数是实现高效推理的重要技术手段。本文将对`llama.cpp`框架下的GGUF格式及量化参数进行详细解析，帮助读者更好地理解和应用这些技术，提升模型的部署效率和推理性能。

2025-03-10 13:56:26 1045 4

原创 SGLang单机与集群环境下的模型私有化部署

SGlang是一个专为混合专家（MoE）语言模型设计的高性能推理引擎，其中DeepSeek-R1便是其支持的模型之一。它具备多节点张量并行计算的能力，可实现多台机器的协同作业，进而满足大规模模型部署的需求。SGlang还支持FP8（W8A8）以及KV缓存优化，并借助Torch Compile技术进一步提升推理效率。

2025-03-10 11:41:08 651

原创无需繁琐邀请码焦虑，Manus开源免费版震撼来袭，看你敢不敢尝试~！

当下的几天内，邀请码宛如一道高不可攀的门槛，让众多渴望尝试新工具的用户望而却步，陷入了无尽的焦虑与等待之中。”这不仅仅是一次软件的更新换代，更是一场思维的革新，一场自由与开放的盛宴。主代理（掌控全局的项目经理）、规划代理（运筹帷幄的战略专家）、工具调用代理（技术精湛的专家），三者构成“黄金三角”，宛如“AI界的特种部队”，各司其职又默契配合，精准打击任务痛点。实时“直播”任务进度、思考日志、文件生成通知，一举击碎传统AI的“黑箱”迷雾，让决策过程无处遁形，清晰得像在玻璃房里操作，用户尽收眼底。

2025-03-07 17:10:30 436

原创掌握高效大模型任务流搭建术（二）：链式流程如何赋能 AI 处理能力提升

在上一篇文章中，我们初步探索了 LangChain 的基础链式操作——LLMChain。它巧妙地将大语言模型（LLM）与提示模板（Prompt Template）相结合，为模型交互逻辑的封装提供了一种简洁而高效的方式。然而，LangChain 的强大之处远不止于此。在 LLMChain 的基础上，LangChain 还提供了众多实用的 Chain 工具，其中 Sequential Chain 尤为引人注目。

2025-03-06 23:53:29 1017

原创掌握大模型高效任务流搭建（一）：构建LangChain任务流

在LangChain框架中，“链”占据着核心地位。它允许我们将众多任务模块串联起来，构建出富有弹性的任务流。借助这种链式结构，我们能够处理复杂的逻辑，并实现任务的自动化。在实际场景里，链式操作极大地优化了大模型的调用管理。它不仅支持单步任务的执行，还能让多步任务相互协作、整合，进而应对更为复杂多变的业务挑战。准备工作：具体步骤如下：安装 LangChain 及其相关依赖。在.env文件或环境变量中配置 API Key。如果使用的是自定义或其他私有大模型，还需要进行相应的 SDK 设置。

2025-03-02 17:34:14 1029

原创从4.2到4.5的革新机器人仿真：探索Nvidia Isaac Sim 4.5平台的创新功能

在机器人技术和人工智能快速发展的今天，仿真软件是将理论转化为实践的重要工具，推动着行业的进步。Nvidia的Isaac Sim仿真平台因其强大功能和灵活性受到广泛欢迎。从4.2到4.5版本的升级，带来了技术创新和新功能，为机器人仿真领域开启了新机遇。Isaac Sim 4.5引入了多项新功能，提升了仿真的精确度和效率，增加了场景的多样性。改进包括更真实的物理引擎、更智能的AI集成、更高效的代码生成和更友好的用户界面，旨在提供更优质的仿真体验。这些更新对机器人工程师、AI研究者和创新者都非常有价值。

2025-02-28 09:57:07 15299 31

原创性能超LangGraph 5000倍，超级Agent藏着什么秘密？

Agno 是一个轻量级的多模态智能体（multi-modal Agent）支持多种数据模态（如文本、图像、音频和视频），并且可以快速创建智能体。提供了内存管理和知识库支持，能够将用户会话和智能体状态存储在数据库中，基于向量数据库实现动态少样本学习。支持多智能体协作，帮助用户实时跟踪智能体会话和性能。纯 Python 实现，开发者可以轻松上手并快速构建高效的智能体应用。

2025-02-26 16:59:59 380

原创 NVIDIA DLI引领创新课程：基于提示工程的LLM应用开发探索

开发基于提示工程的大语言模型（LLL）应用》课程是一门非常实用的课程。学完这门课后，我深刻体会到提示词在大语言模型中的重要性。通过学习，我掌握了如何设计和优化提示词，并将其应用于实际项目中认证。这门课程不仅理论丰富，还提供了大量实践机会，帮助学习者将知识转化为能力。

2025-02-25 23:58:22 1181

原创 “简单胜于复杂：用简约为把手构建高效的AI智能体“

的代码路径协调大语言模型和工具的系统。而。

2025-02-24 16:11:09 535

原创仿 Sora 之形，借物理模拟之技绘视频之彩

视频生成模型作为PD的关键组成部分，通过深度学习海量视频数据中的场景外观与动力学关系，为后续的物理材质模拟以及交互式3D动力合成奠定了坚实的基础。PD与OpenAI旗下的Sora相似，能够借助物理模拟技术来生成视频，这意味着PD所生成的视频蕴含着诸多物理世界的特性。物理材质场采用了隐式神经场来表示，这是一种可微分的模型，能够优化以匹配参考视频中的动态。从而帮助PD推断出驱动物体动态行为的物理材质属性，即使在缺乏地面真实材质数据的情况下也没问题，这也体现了PD强大的物理模拟和评估能力。

2025-02-18 14:27:41 503

原创微软开源创新框架：将 DeepSeek 转变为 AI Agent

这一模块的训练数据集，包含了来自流行网页的67,000张独特截图，每张截图都标注了从DOM树中提取的可交互区域的边界框。例如，当任务是“点击设置按钮”时，OmniParser不仅提供了设置按钮的边界框和ID，还提供了其功能描述，颗显著提高了模型的准确性和鲁棒性。接下来，OmniParser不仅要识别这些元素的位置，还要理解它们的功能和语义。目前，将大模型变成Agent的关键难点在于，需要能够可靠地识别用户界面中的可交互图标，同时必须理解截图中各种元素的语义，并准确将预期动作与屏幕上的对应区域关联起来。

2025-02-18 13:57:18 638

原创 1.5B 到 671B，DeepSeek 本地部署配置全面覆盖的推荐

此外，DeepSeek R1 671B（完整未蒸馏版本）在本地部署时可能会面临较大的硬件需求挑战，因为其对计算能力和存储空间的要求较高，这可能让一些用户感到望而却步。本地部署 DeepSeek 不仅能够确保数据的绝对安全，还能提供更高效、更稳定的服务，满足企业对高性能计算和定制化应用的需求，成为众多企业的理想选择。：在V1的基础上，V2引入了混合专家（MoE）架构和多头潜在注意力（MLA）机制，拥有236B的总参数量，每个token仅激活21B参数，支持128K tokens的上下文长度。

2025-02-17 17:19:30 1224

原创仅需7GB显存，R1训练不再是梦！GRPO强化学习的实践

比如，一些小型研究团队或者个人开发者可能只有有限的计算资源，GRPO使得他们能够在较低配置的硬件上（如只有7GB显存的设备）复现先进的模型训练成果，像R1 - Zero的“顿悟时刻”就可以在7GB显存下通过Qwen2.5（1.5B）模型来实现。并且它对于模型的参数量要求相对灵活，虽然建议至少应用于参数量为1.5B的模型来正确生成思考令牌，但对于一些较小的模型，也可以通过适当的调整和优化来使用GRPO，这使得它在不同的应用场景中都有广泛的适用性。因此，在选择模型时，要根据具体的任务和目标来确定模型的规模。

2025-02-17 16:17:53 1423

原创拥有 14.8K star 的开源 Docker 图形化管理监控神器，简洁高效来袭！

Docker Compose 可谓是管理容器化应用的得力助手，深受大家喜爱。然而，随着容器数量和文件的不断增加，手动操作变得越来越繁琐。试想一下，每次都要在命令行中输入大量复杂的命令，不仅费时费力，还容易出错，效率低下得令人头疼！今天，我要向大家介绍一个非常出色的开源项目——Dockge，它绝对能大幅提升 Docker Compose 的管理效率，堪称神器！今天要给大家介绍一个超棒的开源项目 -Dockge，这可是个能大大提升Docker Compose管理效率的神器。

2025-02-15 22:04:41 749

空空如也

空空如也