内部高性能 AI：高通 Dragonwing AI 本地部署设备解决方案 + 高通 AI 推理套件-优快云博客

高通 Dragonwing AI 本地部署设备解决方案与高通 AI 推理套件中的软件和服务完美配合，可实现从近边缘到云端的 AI 推理。它们共同助力您的中小企业、大型企业或工业组织在本地运行定制和现成的 AI 代理和应用程序，包括生成式 AI 工作负载。在本地运行推理可以降低运营成本，确保数据隐私，减少能耗并大幅降低延迟。

开发者可利用高通 Dragonwing AI 本地部署设备解决方案和高通 AI 推理套件，开发各种应用，例如聊天机器人、店内助手、员工培训、特定场所信息、安全合规和销售赋能。此外，对于寻求在本地部署 AI 中创造新价值的制造商和设计人员而言，这套软硬件组合也极具开发和实验潜力。理想的应用场所包括零售店、快餐店、购物中心、经销商、医院、工厂和车间。

硬件：高通 Dragonwing AI 本地部署设备解决方案
高通 Dragonwing AI 本地部署设备解决方案由高通云 AI 系列加速卡提供支持，适用于工业和嵌入式物联网。

图 1：高通 Dragonwing AI 本地部署设备解决方案

该硬件是一种即插即用的解决方案，其设计可扩展，从独立的桌面产品到壁挂式设备，无需专用基础设施。它使原始设备制造商 (OEM)、原始设计制造商 (ODM) 和系统集成商 (SI) 能够灵活地基于多种配置选项将新产品推向市场：

基础版（现已推出）——适用于参数量高达 100 亿的 AI 模型以及使用计算机视觉和小语言模型 (SLM) 的应用。
Plus（现已推出）——非常适合参数高达 300 亿的 AI 模型以及使用大型语言模型 (LLM) 的应用。
Premier（即将推出）——适用于参数量高达 700 亿的模型以及对性能和精度要求极高的 LLM 应用。
如此强大的本地计算能力和灵活性，意味着您现在可以将工作负载保留在自己的办公场所进行人工智能推理。您可以自主运行各种模型——包括开源模型和专有模型——用于生成式人工智能、自然语言处理和计算机视觉。

高通技术公司生态系统的成员已经开始帮助客户基于该解决方案进行内部部署。如下所示，高通技术公司提供技术栈的底层，为原始设备制造商 (OEM)、原始设计制造商 (ODM)、系统集成商 (SI) 和软件供应商在上层增值留出了充足的空间。

图 2：高通 Dragonwing AI 本地部署设备 – 软件技术栈
软件：高通人工智能推理套件
高通AI推理套件使软件供应商和OEM/ODM/SI能够在AI本地部署设备解决方案上开发生成式AI应用。它提供SDK和兼容OpenAI的API，用于处理各种AI模型。

借助高通人工智能推理套件和高通龙翼人工智能本地部署设备解决方案，您现在可以在本地运行许多熟悉的人工智能应用程序，包括：

盒装语音代理
带有SLM、LLM和LMM的聊天机器人
用于智能索引搜索和摘要的检索增强生成 (RAG) 功能
定制人工智能助手和代理
跨多种语言的智能搜索
自动起草和笔记
图像生成
代码生成
利用人工智能技术处理图像和视频，以保障安全、保障工人安全和进行现场监控。
易于使用的 API 接口让您可以访问用户管理、聊天、图像生成、RAG（红绿灯）、OpenAI API 兼容性以及音频/视频生成 AI 等功能。该套件支持使用 LangChain、CrewAI 和 AutoGen 等熟悉的框架来创建 AI 代理。所有组件均可在 Kubernetes 或裸容器中运行，并且在 Kubernetes 上部署时支持自动扩展。

该套件包含完整的API 文档和教程，可帮助您快速启动并运行 AI 应用。

示例应用程序和演示环境
为了帮助您快速上手，高通还提供了一套示例应用程序，可以在示例硬件上运行这些应用程序。

在Qualcomm Cloud AI Playground上，您可以直接在 Qualcomm Cloud AI 加速卡上运行 Qualcomm AI 推理套件中的应用程序。如下所示，您可以使用 Playground 中提供的示例应用程序和 API 端点，实现图像生成、翻译、转录、嵌入、代码生成、通用聊天、RAG（红黄绿）和摘要生成等功能。

图 3. 高通云人工智能的试验场
（请注意，这些程序不能同时运行。）

还可以使用Playground 中包含的教程和文档，从头开始构建自己的应用程序和 AI 代理。

在Qualcomm Cloud AI Playground上，您可以直接在 Qualcomm Cloud AI 加速卡上运行 Qualcomm AI 推理套件中的应用程序——这些加速卡与 Qualcomm Dragonwing AI 本地部署设备解决方案中使用的加速卡相同。为了最大限度地提高响应速度和性能，该 Playground 已在全球多个区域部署。

只需一行代码即可导入自己的模型
你也可以自带模型，不必局限于游乐场里的那些模型。

借助高通高效Transformer库，可以轻松集成和部署来自Hugging Face的热门模型，或者只需一行代码即可导入您自己的模型。该库会编译并优化您的模型，使其能够在高通云AI加速卡和高通Dragonwing AI本地部署设备解决方案上运行。目前，包括纯文本语言模型和嵌入模型在内的众多模型已经过验证并添加到该库中。

看高通官方资料信息基本是给出了一个精心设计了整个解决方案，可以使我们专注于创建应用程序和代理，而不是修改和转换模型。还设计了高通高效Transformer库，可以随时随地进行训练，并使用以开发者为中心的工具链在高通云AI加速器上轻松进行推理。只需提供来自Hugging Face的模型卡（或本地模型的路径）。该库会自动转换和优化您的模型，使其在高通云AI加速器上实现高性能。

下一步
无论是专注于设计、编写和维护软件应用程序的软件开发人员，还是对设计、构建和销售硬件感兴趣的硬件设计师，高通龙翼AI本地部署设备解决方案都能为之提供合适的支持。您在下图中所处的位置是什么？

图 4. 高通 Dragonwing AI 本地部署设备解决方案 + 高通 AI 推理套件
软件供应商、模型制作商和开发商：
五分钟后，您就可以在测试环境中，使用 Qualcomm Dragonwing AI 本地部署设备解决方案，试用 Qualcomm AI 推理套件。您可以轻松使用各种端点，体验聊天、转录、翻译和摘要等生成式 AI 应用。

高通已尽可能简化您的访问流程，只需点击“使用 Google 登录”按钮即可轻松进入游戏。无需信用卡，无需提供个人信息，也无需等待。目前使用来看游戏体验不错。

也可以查看该套件的文档和教程，然后访问官方提供的开发者 Discord，从高通的专家那里获得更深入的见解，并与其他开发者进行实时交流。

原始设备制造商 (OEM)、原始设计制造商 (ODM) 和系统集成商 (SI)：
虚构需要在这个市场还有发展空间。可以轻松地将高通龙翼AI本地部署设备解决方案和高通AI推理套件集成到即将向客户提供的下一代产品中。