离线部署ollam以及大模型

本文详细描述了如何在没有使用Docker的情况下,在CentOS服务器上手动安装Ollama,设置服务文件,以及如何拉取并部署大模型的过程。
部署运行你感兴趣的模型镜像

我是直接安装在服务器上, 没用docker.

1 安装ollama 

有网机器上下载ollama: wget https://ollama.com/download/ollama-linux-amd64 
弄到离线服务器上:/usr/bin/ollama  ollama就是你下载的ollama-linux-amd64 改名了
赋权限: sudo chmod +x /usr/bin/ollama
创建用户: sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama 
创建服务文件: /etc/systemd/system/ollama.service, 内容如下
[Unit]
Description=Ollama Service
After=network-online.target

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3

[Install]
WantedBy=default.target

这里要注意Environment这个参数官网没有, 这个是配置其他机器访问的.

重新加载: sudo systemctl daemon-reload\

开机启动: sudo systemctl enable ollama

启动: systemctl start ollama

到这里是参考官方文档: https://github.com/ollama/ollama/blob/main/docs/linux.md .

2 安装大模型

还是在有网的机器(这个机器已经安装ollama), 拉取大模型: ollama pull llama3:8b 

大模型存储在: /usr/share/ollama/.ollama

把整个.ollama弄到离线服务器同一个目录下. 

查看是否识别到大模型: ollama list,  如果成功, 则会看到大模型

到此centos 直接部署ollama以及大模型全部介绍完毕

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

### 离线环境下部署大模型的方法和工具 在离线环境下部署大模型需要考虑多个方面,包括环境准备、模型选择、硬件配置以及具体的部署工具和技术。以下是详细的介绍: #### 1. 环境准备 在离线环境中部署大模型的第一步是确保本地环境的完备性。这包括安装必要的依赖库、配置深度学习框架(如TensorFlow或PyTorch),以及设置GPU驱动程序。为了简化这一过程,可以使用容器化技术,例如Docker[^4]。通过Docker镜像,可以将所有依赖项打包到一个可移植的环境中,从而避免因环境差异导致的问题。 #### 2. 模型选择与优化 离线部署中,模型的选择至关重要。通常可以选择预训练的大模型,并根据具体任务进行微调(Fine-tuning)。微调过程中可以采用数据蒸馏等技术来减少模型大小和计算复杂度[^3]。此外,模型量化(Quantization)和剪枝(Pruning)也是常用的优化方法,它们能够显著降低模型对硬件资源的需求。 #### 3. 硬件配置 离线部署要求高性能的硬件支持,特别是对于大规模模型。以下是一些常见的硬件配置建议: - **GPU**:NVIDIA GPU是目前主流的选择,因其对CUDA的支持良好,适合运行深度学习任务。 - **TPU**:Google TPU在某些特定场景下也能提供高效的性能。 - **CPU**:对于轻量级模型或推理任务,高性能CPU也可以满足需求。 硬件的选择应根据实际应用场景和预算进行权衡。 #### 4. 部署工具 在离线环境下,有多种工具可以帮助完成大模型部署: - **LangChain**:这是一个专注于大模型应用开发的框架,提供了从数据准备到模型部署的一站式解决方案[^1]。 - **Hugging Face Transformers**:该库包含大量预训练模型,支持多种自然语言处理任务,并且易于集成到自定义项目中。 - **ONNX Runtime**:用于加速模型推理,支持跨平台部署。 - **TensorRT**:由NVIDIA开发,专门针对GPU优化,适用于高性能推理场景。 #### 5. 数据隐私与安全 离线部署的一个重要优势是能够更好地保护数据隐私。通过将所有数据和计算限制在本地环境中,可以有效避免敏感信息泄露的风险。此外,还需要遵循相关法律法规(如GDPR),确保数据存储和处理的合规性。 #### 6. 性能调优 为了在离线环境中获得最佳性能,可以采取以下措施: - 使用批处理(Batch Processing)提高吞吐量。 - 调整超参数以适应目标硬件。 - 利用多线程或多进程并行计算。 ```python # 示例代码:使用TensorRT优化模型推理 import tensorrt as trt def build_engine(onnx_file_path): TRT_LOGGER = trt.Logger(trt.Logger.WARNING) builder = trt.Builder(TRT_LOGGER) network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)) parser = trt.OnnxParser(network, TRT_LOGGER) with open(onnx_file_path, 'rb') as model: if not parser.parse(model.read()): print('Failed to parse ONNX file.') for error in range(parser.num_errors): print(parser.get_error(error)) return None config = builder.create_builder_config() config.max_workspace_size = 1 << 30 # 1GB engine = builder.build_engine(network, config) return engine ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值