Modular.ai-全球最快的统一AI推理引擎

部署运行你感兴趣的模型镜像

全球最快的统一AI推理引擎。更快地将模型投入生产。模块化引擎能够执行所有的TensorFlow和PyTorch模型,无需重写或转换模型。将模型直接部署到服务器和边缘端,具有无与伦比的易用性和性能,无论在哪里都能够轻松使用。

模块化推理引擎可以帮助简化您的工作流程,降低推理延迟,从而使您的AI产品实现规模化。

我们采用最佳的编译器和运行时技术,创建了全球最快的统一推理引擎。它能够为TensorFlow和PyTorch的所有模型增加性能,并在多种硬件后端上运行。

不需要更改您的模型。 在广泛的硬件范围内提供高性能。 只需加载您的模型,执行并观察延迟下降。 在下面,您可以预览我们的Python和C APIs,我们的C++ API即将推出!

A high-performance generative AI framework一种高性能的生成式AI框架.

优化您现有的PyTorch和ONNX型号:无缝迁移,无需在统一的AI堆栈上重写AI模型和管道。

使用Mojo增强您的AI应用程序:使用高性能Mojo扩展您的Python代码,这是一种具有Python表达力和C语言性能的新编程语言。

本地开发,全球部署到任何云: 在本地开发AI应用程序,并在cpu和gpu上跨任何云提供商打包和部署,而无需更改代码。

现在使用MAX在笔记本电脑上运行LLM: 

在笔记本电脑上运行Llama3

  1. install

curl -ssL https://magic.modular.com/845a1632-7b35-4b81-acb0-4ce386f3ce21 | bash

2.运行你的第一个模型

让我们从简单的事情开始,以确保一切正常。

  1. 克隆MAX代码示例:

    <span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13"><span style="color:#f44771">git</span> clone https://github.com/modularml/max.git
    </span></code></span></span>
  2. 导航到BERT Python代码示例并激活Magic 环境shell (安装MAX):

    <span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13"><span style="color:#676d86"><strong>cd</strong></span> max/examples/inference/bert-python-torchscript
    </span></code></span></span>
    <span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13">magic shell
    </span></code></span></span>

    当您首次调用环境命令时,例如magic shell,Magic安装MAX和所有 特定于项目的虚拟环境中的项目依赖项。

    完成设置后,您应该会看到前缀为的环境名称 您的终端提示。例如:

    <span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13">(BERT Python Torchscript) jamie:~/max/examples/inference/bert-python-torchscript$
    </span></code></span></span>
  3. 使用此脚本在MAX中下载并运行BERT模型:

    <span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13"><span style="color:#f44771">bash</span> run.sh
    </span></code></span></span>

    这将从HuggingFace下载模型,并使用一些输入文本运行它。

    你应该看到这样的结果:

    3.在MAX上尝试Llama3

    在前面的示例中,我们使用MAX引擎Python运行了一个PyTorch模型 API,但MAX提供的远不止这些。您也可以使用MAX来构建 Mojo中的高性能,最先进的AI模型。

    Mojo是一种从头开始构建的系统编程语言 在任何硬件上实现最大性能,并在 整个AI软件堆栈。你不必写一行Mojo 使用MAX Engine加速您的模型。但是,MAX Engine和Mojo共享 基本的编译器技术,这意味着Mojo具有独特的能力 在MAX Engine中为您的模型解锁新的性能级别。

    你自己看看。我们已经建立了美洲驼3大语言 型号完全在Mojo中,使用MAX Graph API。这是令人难以置信的快,你可以试试现在:

  4. 导航回到您克隆我们的回购的路径。然后导航到 Graph API示例:

    <span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13"><span style="color:#676d86"><strong>cd</strong></span> max/examples/graph-api
    </span></code></span></span>
  5. 现在让我们使用magic run执行命令 在虚拟环境中,无需实际激活shell:

    <span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13">magic run llama3 <span style="color:#637bff">--prompt</span> <span style="color:#9570ff">"what is the meaning of life"</span>
    </span></code></span></span>

    这一次,Magic已经有一个缓存版本的MAX,下载的 以前的例子。所以它只需要下载模型权重,编译 Llama 3模型,并运行它。

  6. <span style="background-color:#e5e9ef"><span style="color:#020c13"><code><span style="color:#020c13">input text: Paris is the [MASK] of France.
    </span><span style="color:#020c13">filled mask: Paris is the capital of France.</span></code></span></span>

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值