全球最快的统一AI推理引擎。更快地将模型投入生产。模块化引擎能够执行所有的TensorFlow和PyTorch模型,无需重写或转换模型。将模型直接部署到服务器和边缘端,具有无与伦比的易用性和性能,无论在哪里都能够轻松使用。
模块化推理引擎可以帮助简化您的工作流程,降低推理延迟,从而使您的AI产品实现规模化。
我们采用最佳的编译器和运行时技术,创建了全球最快的统一推理引擎。它能够为TensorFlow和PyTorch的所有模型增加性能,并在多种硬件后端上运行。
不需要更改您的模型。 在广泛的硬件范围内提供高性能。 只需加载您的模型,执行并观察延迟下降。 在下面,您可以预览我们的Python和C APIs,我们的C++ API即将推出!
A high-performance generative AI framework一种高性能的生成式AI框架.
优化您现有的PyTorch和ONNX型号:无缝迁移,无需在统一的AI堆栈上重写AI模型和管道。
使用Mojo增强您的AI应用程序:使用高性能Mojo扩展您的Python代码,这是一种具有Python表达力和C语言性能的新编程语言。
本地开发,全球部署到任何云: 在本地开发AI应用程序,并在cpu和gpu上跨任何云提供商打包和部署,而无需更改代码。
现在使用MAX在笔记本电脑上运行LLM:
1. install
2.运行你的第一个模型
让我们从简单的事情开始,以确保一切正常。
-
克隆MAX代码示例:
<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13"><span style="color:#f44771">git</span> clone https://github.com/modularml/max.git </span></code></span></span> -
导航到BERT Python代码示例并激活Magic 环境shell (安装MAX):
<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13"><span style="color:#676d86"><strong>cd</strong></span> max/examples/inference/bert-python-torchscript </span></code></span></span><span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13">magic shell </span></code></span></span>当您首次调用环境命令时,例如magic shell,Magic安装MAX和所有 特定于项目的虚拟环境中的项目依赖项。
完成设置后,您应该会看到前缀为的环境名称 您的终端提示。例如:
<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13">(BERT Python Torchscript) jamie:~/max/examples/inference/bert-python-torchscript$ </span></code></span></span> -
使用此脚本在MAX中下载并运行BERT模型:
<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13"><span style="color:#f44771">bash</span> run.sh </span></code></span></span>这将从HuggingFace下载模型,并使用一些输入文本运行它。
你应该看到这样的结果:
3.在MAX上尝试Llama3
在前面的示例中,我们使用MAX引擎Python运行了一个PyTorch模型 API,但MAX提供的远不止这些。您也可以使用MAX来构建 Mojo中的高性能,最先进的AI模型。
Mojo是一种从头开始构建的系统编程语言 在任何硬件上实现最大性能,并在 整个AI软件堆栈。你不必写一行Mojo 使用MAX Engine加速您的模型。但是,MAX Engine和Mojo共享 基本的编译器技术,这意味着Mojo具有独特的能力 在MAX Engine中为您的模型解锁新的性能级别。
你自己看看。我们已经建立了美洲驼3大语言 型号完全在Mojo中,使用MAX Graph API。这是令人难以置信的快,你可以试试现在:
-
导航回到您克隆我们的回购的路径。然后导航到 Graph API示例:
<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13"><span style="color:#676d86"><strong>cd</strong></span> max/examples/graph-api </span></code></span></span> -
现在让我们使用magic run执行命令 在虚拟环境中,无需实际激活shell:
<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13">magic run llama3 <span style="color:#637bff">--prompt</span> <span style="color:#9570ff">"what is the meaning of life"</span> </span></code></span></span>这一次,Magic已经有一个缓存版本的MAX,下载的 以前的例子。所以它只需要下载模型权重,编译 Llama 3模型,并运行它。
-
<span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13">input text: Paris is the [MASK] of France. </span><span style="color:#020c13">filled mask: Paris is the capital of France.</span></code></span></span>

1309

被折叠的 条评论
为什么被折叠?



