Modular.ai-全球最快的统一AI推理引擎

最新推荐文章于 2025-05-29 10:42:07 发布

翻译最新推荐文章于 2025-05-29 10:42:07 发布 · 284 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://docs.modular.com/max/get-started

文章标签：

#人工智能

部署运行你感兴趣的模型镜像

全球最快的统一AI推理引擎。更快地将模型投入生产。模块化引擎能够执行所有的TensorFlow和PyTorch模型，无需重写或转换模型。将模型直接部署到服务器和边缘端，具有无与伦比的易用性和性能，无论在哪里都能够轻松使用。

模块化推理引擎可以帮助简化您的工作流程，降低推理延迟，从而使您的AI产品实现规模化。

我们采用最佳的编译器和运行时技术，创建了全球最快的统一推理引擎。它能够为TensorFlow和PyTorch的所有模型增加性能，并在多种硬件后端上运行。

不需要更改您的模型。在广泛的硬件范围内提供高性能。只需加载您的模型，执行并观察延迟下降。在下面，您可以预览我们的Python和C APIs，我们的C++ API即将推出！

A high-performance generative AI framework一种高性能的生成式AI框架.

优化您现有的PyTorch和ONNX型号:无缝迁移，无需在统一的AI堆栈上重写AI模型和管道。

使用Mojo增强您的AI应用程序:使用高性能Mojo扩展您的Python代码，这是一种具有Python表达力和C语言性能的新编程语言。

本地开发，全球部署到任何云: 在本地开发AI应用程序，并在cpu和gpu上跨任何云提供商打包和部署，而无需更改代码。

现在使用MAX在笔记本电脑上运行LLM:

在笔记本电脑上运行Llama3

1. install

curl -ssL https://magic.modular.com/845a1632-7b35-4b81-acb0-4ce386f3ce21 | bash

2.运行你的第一个模型

让我们从简单的事情开始，以确保一切正常。

克隆MAX代码示例:

<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13"><span style="color:#f44771">git</span> clone https://github.com/modularml/max.git
</span></code></span></span>

导航到BERT Python代码示例并激活Magic 环境shell (安装MAX):

<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13"><span style="color:#676d86"><strong>cd</strong></span> max/examples/inference/bert-python-torchscript
</span></code></span></span>

<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13">magic shell
</span></code></span></span>

当您首次调用环境命令时，例如magic shell,Magic安装MAX和所有特定于项目的虚拟环境中的项目依赖项。

完成设置后，您应该会看到前缀为的环境名称您的终端提示。例如:

<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13">(BERT Python Torchscript) jamie:~/max/examples/inference/bert-python-torchscript$
</span></code></span></span>

使用此脚本在MAX中下载并运行BERT模型:
```
<code>bash run.sh
</code>
```
这将从HuggingFace下载模型，并使用一些输入文本运行它。

你应该看到这样的结果:

3.在MAX上尝试Llama3

在前面的示例中，我们使用MAX引擎Python运行了一个PyTorch模型 API，但MAX提供的远不止这些。您也可以使用MAX来构建 Mojo中的高性能，最先进的AI模型。

Mojo是一种从头开始构建的系统编程语言在任何硬件上实现最大性能，并在整个AI软件堆栈。你不必写一行Mojo 使用MAX Engine加速您的模型。但是，MAX Engine和Mojo共享基本的编译器技术，这意味着Mojo具有独特的能力在MAX Engine中为您的模型解锁新的性能级别。

你自己看看。我们已经建立了美洲驼3大语言型号完全在Mojo中，使用MAX Graph API。这是令人难以置信的快，你可以试试现在:

导航回到您克隆我们的回购的路径。然后导航到 Graph API示例:

<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13"><span style="color:#676d86"><strong>cd</strong></span> max/examples/graph-api
</span></code></span></span>

现在让我们使用magic run执行命令在虚拟环境中，无需实际激活shell:

<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13">magic run llama3 <span style="color:#637bff">--prompt</span> <span style="color:#9570ff">"what is the meaning of life"</span>
</span></code></span></span>

这一次，Magic已经有一个缓存版本的MAX，下载的以前的例子。所以它只需要下载模型权重，编译 Llama 3模型，并运行它。

<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13">input text: Paris is the [MASK] of France.
</span><span style="color:#020c13">filled mask: Paris is the capital of France.</span></code></span></span>

您可能感兴趣的与本文相关的镜像