教你一分钟快速部署 Llama3 中文大模型

Meta发布了性能最强的开源大模型,参数分别达到80亿和700亿,接近商业模型。同时介绍了量化模型在不同配置下的性能损失,以及如何在Sealos上部署中文微调版Llama3模型进行对话测试。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前百度创始人李彦宏先生曾经说过“开源大模型会越来越落后,闭源模型会持续领先”,但国货表示真的不服,紧接着被扎克伯格同学就给了当头一棒,向他展示了什么叫做顶级开源大模型。那变听我娓娓道来。

美国当地时间4月18日,Meta 在官网上发布了两款开源大模型,参数分别达到 80 亿 (8B) 和 700 亿 (70B),是目前同体量下性能最好的开源模型,而且直接逼近了一线顶级商业模型 GPT-4 和 Claude3。

与此同时,还有一个 400B 的超大杯模型还在路上,估计很快就会放出来,到时候就真的碾压了,某些声称闭源遥遥领先的哥们就等着哭吧 😢

虽然才过去短短几日,Huggingface 上已经涌现了非常多的 Llama3 中文微调版,令人眼花缭乱:

想不想自己也部署一个 Llama3 中文版?

对于没有 GPU 的同学,我们可以使用微调的量化模型来使用 CPU 运行。不同的量化方法会带来不同的性能损失:

  1. 8bit 量化没有性能损失。

  2. AWQ 4bit 量化对 8B 模型来说有 2%性能损失,对 70B 模型只有 0.05%性能损失。

  3. 参数越大的模型,低 bit 量化损失越低。AWQ 3bit 70B 也只有 2.7%性能损失,完全可接受。

综合来说,如果追求无任何性能损失,8B 模型用 8bit 量化,70B 模型用 4bit 量化

如果能接受 2-3%损失,8B 模型用 4bit 量化,70B 模型用 3bit 量化。

图片

目前效果最好的中文微调版是 HuggingFace 社区的 zhouzr/Llama3-8B-Chinese-Chat-GGUF 模型[1],该模型采用 firefly-train-1.1M、moss-003-sft-data、school_math_0.25M、弱智吧(没错,就是那个弱智吧~)数据集,使模型能够使用中文回答用户的提问。

下面我们来看看如何在三分钟内快速部署这个模型吧。

直接在浏览器中打开以下链接:

  • https://bja.sealos.run/?openapp=system-template%3FtemplateName%3Dllama3-8b-chinese

然后点击右上角的「去 Sealos 部署」。

如果您是第一次使用 Sealos,则需要注册登录 Sealos 公有云账号,登录之后会立即跳转到模板的部署页面。

跳转进来之后,点击右上角的「部署应用」开始部署,部署完成后,直接点击应用的「详情」进入该应用的详情页面。

等待实例状态变成 running 之后,Llama3 中文版模型就部署好了,默认会提供一个与 OpenAI 官方接口对齐的 API,你可以打开终端直接通过 API 来测试。我框出来的部分就是该模型 API 在 Sealos 集群的内网地址,你可以点击它直接复制。

为了更直观地使用,我们可以选择再部署一个 WebUI,Lobe Chat、ChatGPT Next Web 这些都可以使用,本文以 Lobe Chat 为例,直接在浏览器打开以下链接:

  • https://bja.sealos.run/?openapp=system-template%3FtemplateName%3Dlobe-chat

需要填写三个变量的值,如下图所示:

  • OPENAI_PROXY_URL 的值就是我们刚刚复制的内网 API 接口地址,记得要在末尾加上 /v1

  • OPENAI_MODEL_LIST 的值是 +Llama3-8B-Chinese-Chat.q4_k_m.GGUF

  • OPENAI_API_KEY 的值随便瞎写一个就行。

然后点击右上角的「部署应用」,部署完成后,直接点击应用的「详情」进入该应用的详情页面,等待实例状态变成 running 之后,点击外网地址即可打开 Lobe Chat 的可视化界面。

进来之后,先点击顶部的 gpt-3.5-turbo:

在弹出来的下拉框中点击「Llama3-8B-Chinese-Chat.q4_k_m.GGUF」,切换到该模型。

现在就可以和模型愉快地对话了,先来个弱智吧的问题尝尝咸淡:

再来试试 GPT-4 专用测试问题:

数学能力测试:

引用链接

zhouzr/Llama3-8B-Chinese-Chat-GGUF 模型: https://huggingface.co/zhouzr/Llama3-8B-Chinese-Chat-GGUF

### 部署 Ollama Llama 模型 为了部署 Ollama Llama 模型,需遵循特定的指令来确保顺利安装和运行。 对于 Windows 用户,在启动命令提示符之前,可以通过 `win + r` 打开运行窗口并输入 `cmd` 来开启终端环境[^4]。随后可以执行模型运行命令: ```bash ollama run llama3 ``` 上述命令默认会安装 8B 版本的模型。如果希望指定不同大小的模型版本,则可以在命令后面加上对应的标签,例如要安装 70B 的模型版本,应使用如下命令: ```bash ollama run llama3:70b ``` 整个安装流程可能持续大约二十分钟的时间。当一切准备就绪之后,用户将会看到成功的提示信息。 对于拥有高性能显卡的设备,可以选择更大规模的模型来进行部署。比如针对 Llama 3.1 大模型,有以下两种选择用于拉取不同的模型尺寸: ```bash ollama run llama3.1:70b ollama run llama3.1:405b ``` 这些命令允许根据硬件条件和个人需求灵活选取适合的模型规格[^3]。 另外,首次接触该平台时,建议先获取已有的模型列表以便了解当前可用资源情况。这一步骤可通过简单的 shell 脚本来完成: ```bash curl -fsSL https://ollama.com/install.sh | sh ``` 此脚本不仅能够展示现有的模型选项,同时也负责处理必要的软件包安装工作[^2]。 最后,若计划定制化配置所使用的模型,那么就需要编辑名为 Modelfile 的配置文档。这份文件支持对诸如上下文长度、温度参数以及其他影响输出多样性的因素做出细致设定。创建或更新模型的具体操作方式为: ```bash ollama create llama3-chinese -f Modelfile ``` 这条语句表明了如何利用自定义设置生成新的模型实例或是调整已有模型的行为模式[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

国货崛起

位卑未敢忘忧国,清澈的爱只为中

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值