建立自己的ChatGPT:LLama私有化部署及测试

Meta的LLaMA大语言模型开源后,促进了Alpaca、Luotuo和Vicuna等轻量级模型的发展。Vicuna,基于LLaMA的13B参数模型,在对话性能上获得GPT-4的认可。研究人员提供了一套在CPU环境下运行Vicuna的方案,降低了使用门槛。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大语言模型(LLM)现在非常流行,可惜ChatGPT等都不开源。大家没法搭建一个自己的环境来感受以下。幸好Meta开源了LLama,这是LLama的介绍:

https://ai.facebook.com/blog/large-language-model-llama-meta-ai/

具体技术细节请看论文:

LLaMA: Open and Efficient Foundation Language Models

以 Meta 开源 LLaMA(直译为「大羊驼」)系列模型为起点,斯坦福大学等机构的研究人员先后在其上进行「二创」,开源了基于 LLaMA 的 Alpaca(羊驼)、Alpaca-Lora、Luotuo(骆驼)等轻量级类 ChatGPT 模型,大大降低了这类模型的研究、应用门槛,训练、推理成本一再降低。

近日,来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣迭戈分校的研究者们又提出了一个新的模型 ——Vicuna(小羊驼)。这个模型也是基于 LLaMA,不过用到的是 13B 参数量的版本。

这个项目有趣的地方在于,作者在评测环节并没有通过某种「标准化考试」来测定模型性能(因为他们认为这些问题测不出模型在对话中的变通能力),而是让 GPT-4 当「考官」,看看 GPT-4 更倾向于 Vicuna-13B 还是其他基线模型的答案。结果显示,GPT-4 在超过 90% 的问题中更倾向于 Vicuna,并且 Vicuna 在总分上达到了 ChatGPT 的 92%。

经过他们优化后,大家也可以在自己的CPU环境上体验一下了。

LLama共有4种模型:

一般的笔记本也就只能玩得起7B和13B两种了。下面是我在CPU环境上的搭建过程。

模型下载地址:

eachadea/ggml-vicuna-13b-4bit · Hugging Face

运行程序可以使用LLAMA.cpp, github地址:

https://github.com/ggerganov/llama.cpp

可以直接下载编译后的程序:

https://github.com/ggerganov/llama.cpp/releases

随便选一个编译的解压(我用的llama-master-698f7b5-bin-win-avx2-x64.zip)并把模型文件放在同一个目录下

然后为了方便每次使用,写一个bat文件,内容如下:

@echo off
".\main.exe" -ins -m .\ggml-vicuna-13b-4bit-rev1.bin

直接执行这个Bat文件或者命令行执行这个命令都行。

效果如图:

7B的与13B的类似,就不重复说了。

### 如何部署 Llama 模型 #### 使用 Amazon SageMaker 部署 Meta 的 Llama模型 为了高效地部署 Llama 模型,可以采用 Amazon SageMaker 平台。该平台提供了托管的服务来简化机器学习工作流中的各个阶段,包括训练、调优以及部署模型。 通过SageMaker实例可以直接加载预训练好的Llama权重文件,并创建一个HTTP端点用于实时预测请求处理[^2]。对于更复杂的生产环境需求,则建议构建自定义容器镜像以支持特定版本依赖项或者优化后的推理逻辑。 #### 构建 AI 生活智能助手解决方案架构 一种完整的基于云端的大规模语言模型服务化方案如下: - **前端展示层**:借助 Streamlit 这样的轻量级 Web 应用程序框架快速搭建用户界面; - **后端业务逻辑层**:利用 AWS Lambda 函数按需触发执行任务并与外部 API 或数据库通信; - **核心算法引擎层**:在 SageMaker 上面启动带有 GPU 加速能力的实例集群专门负责运行大型神经网络结构如 Llama 2 及其配套的安全防护组件 (例如 Llama Guard),确保输出内容符合伦理道德标准和社会责任要求; - **数据持久化存储层**:选用 DynamoDB 表格形式保存聊天历史记录以便后续分析挖掘价值所在[^3]。 #### 实现本地离线环境下运行 Llama3 方法论指导 如果目标是在个人计算机或者其他私有基础设施之上独立运作而不依赖于任何第三方云服务商的话,那么就需要考虑一系列因素比如硬件配置是否满足最低限度性能指标、操作系统兼容性问题等等。具体步骤涉及安装必要的软件包(Python解释器及其库)、下载对应体系结构下的二进制可执行文件或者是源码编译生成最终产物,最后按照官方文档指示完成整个设置流程[^4]。 ```bash pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu git clone https://github.com/facebookresearch/llama.git cd llama python setup.py install ``` 上述命令展示了如何准备 Python 开发环境中所需的 PyTorch 组件,接着克隆 GitHub 上由 Facebook Research 提供维护更新的开源项目仓库地址至当前目录下,进入该项目根路径之后再执行一次安装操作使得能够顺利导入模块进行下一步开发活动。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值