点击蓝字
关注我们,让开发变得更有趣
作者 | 英特尔 AI 软件工程师 杨亦诚
指导 | 英特尔 OpenVINO 布道师 武卓博士
排版 | 李擎
基于 Llama2 和 OpenVINO™ 打造聊天机器人
Llama 2是 Meta 发布了其最新的大型语言模型,Llama2 是基于 Transformer 的人工神经网络,以一系列单词作为输入,递归地预测下一个单词来生成文本。
这是一款开源且免费的人工智能模型。此前,由于开源协议问题,Llama 1 虽然功能强大,但并不可免费商用。然而,这一次 Meta 终于推出了免费商用版本 Llama 2,借这一机会,我们分享一下如何基于 Llama2 和 OpenVINO 工具套件来打造一款聊天机器人。
项目仓库地址:
https://github.com/OpenVINO-dev-contest/llama2.openvino

注1:由于 Llama2 对在模型转换和运行过程中对内存的占用较高,推荐使用支持 128Gb 以上内存的的服务器终端作为测试平台。
注2:本文仅分享部署 Llama2 原始预训练模型的方法,如需获得自定义知识的能力,需要对原始模型进行 Fine-tune;如需获得更好的推理性能,可以使用量化后的模型版本。
OpenVINO™

模型导出
第一步,我们需要下载 Llama2 模型,并将其导出为OpenVINO™ 所支持的 IR 格式模型进行部署,这里我们使用 Optimum-Intel 所提供的接口,直接从 Hugging Face 仓库中下载并生成 IR 模型。
ov_model = OVModelForCausalLM.from_pretrained(args.model_id,
compile=False,
from_transformers=True)
ov_model.save_pretrained(model_path)
不过在这之前,我们首先需要向 Meta 申请模型下载的许可,方可开始下载,具体如何发送申请可以参考 Llama2 仓库中的说明和引导:https://huggingface.co/meta-llama/Llama-2-7b-hf
在运行项目仓库中的 export_ir.py 脚本后,会在本地指定路径中生成openvino_model.bin和 openvino_model.xml ,前者为模型参数文件,后者为模型结构文件。

模型部署(方案一)
由于目前 Hugging Face 的 Transformer 以及 Optimum 库都已经支持了 Llama2 系列模型的部署,一种比较简便和快捷的做

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



