GLM-4-9B-Chat模型的安装与使用教程

GLM-4-9B-Chat模型的安装与使用教程

glm-4-9b-chat glm-4-9b-chat 项目地址: https://gitcode.com/hf_mirrors/ai-gitcode/glm-4-9b-chat

引言

在当今人工智能技术飞速发展的背景下,自然语言处理模型在各个领域发挥着越来越重要的作用。GLM-4-9B-Chat作为智谱AI最新一代预训练模型的开源版本,具备多轮对话、网页浏览、代码执行、自定义工具调用和长文本推理等高级功能。本教程旨在帮助您快速了解GLM-4-9B-Chat模型的安装与使用,让您能够轻松驾驭这款强大的AI工具。

安装前准备

系统和硬件要求

  • 操作系统:Linux、Windows或macOS
  • 硬件:CPU(支持AVX2指令集)或GPU(NVIDIA显卡)
  • 内存:至少16GB,推荐32GB以上

必备软件和依赖项

  • Python 3.8以上版本
  • PyTorch 1.10.0以上版本(GPU版本需要安装CUDA对应版本)
  • transformers库(版本>=4.44.0)
  • vLLM库(若需使用vLLM后端进行推理)

安装步骤

下载模型资源

您可以从Hugging Face模型库中下载GLM-4-9B-Chat模型,地址为:https://huggingface.co/THUDM/glm-4-9b-chat

安装过程详解

  1. 安装Python、PyTorch和transformers库:

    • Python安装:请根据您的操作系统,从Python官网下载并安装Python 3.8以上版本。
    • PyTorch安装:请访问PyTorch官网(https://pytorch.org/),根据您的系统和硬件配置选择合适的版本进行安装。
    • transformers安装:在终端或命令提示符中运行以下命令:
      pip install transformers==4.44.0
      
  2. 安装vLLM库(可选):

    pip install vllm
    
  3. 下载GLM-4-9B-Chat模型:

    • 在终端或命令提示符中运行以下命令:
      transformers-cli download --model THUDM/glm-4-9b-chat
      

基本使用方法

加载模型

  1. 使用transformers后端进行加载:

    from transformers import AutoModelForCausalLM, AutoTokenizer
    device = "cuda"  # 根据您的硬件配置选择 "cpu" 或 "cuda"
    tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat", trust_remote_code=True)
    model = AutoModelForCausalLM.from_pretrained("THUDM/glm-4-9b-chat", torch_dtype=torch.bfloat16, low_cpu_mem_usage=True, trust_remote_code=True).to(device).eval()
    
  2. 使用vLLM后端进行加载:

    from transformers import AutoTokenizer
    from vllm import LLM
    max_model_len, tp_size = 131072, 1  # 根据您的硬件配置选择合适的参数
    tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat", trust_remote_code=True)
    llm = LLM(
        model="THUDM/glm-4-9b-chat",
        tensor_parallel_size=tp_size,
        max_model_len=max_model_len,
        trust_remote_code=True,
        enforce_eager=True
    )
    

简单示例演示

  1. 使用transformers后端进行推理:

    query = "你好"
    inputs = tokenizer.apply_chat_template([{"role": "user", "content": query}], add_generation_prompt=True, tokenize=True, return_tensors="pt", return_dict=True)
    inputs = inputs.to(device)
    gen_kwargs = {"max_length": 2500, "do_sample": True, "top_k": 1}
    with torch.no_grad():
        outputs = model.generate(**inputs, **gen_kwargs)
        outputs = outputs[:, inputs['input_ids'].shape[1]:]
        print(tokenizer.decode(outputs[0], skip_special_tokens=True))
    
  2. 使用vLLM后端进行推理:

    prompt = [{"role": "user", "content": "你好"}]
    stop_token_ids = [151329, 151336, 151338]
    sampling_params = SamplingParams(temperature=0.95, max_tokens=1024, stop_token_ids=stop_token_ids)
    inputs = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=True)
    outputs = llm.generate(prompts=inputs, sampling_params=sampling_params)
    print(outputs[0].outputs[0].text)
    

参数设置说明

  • max_length:生成文本的最大长度
  • do_sample:是否使用采样方法生成文本
  • top_k:采样时考虑的最优k个token
  • temperature:采样时的温度参数,影响生成文本的多样性
  • stop_token_ids:停止生成文本的token ID列表

结论

通过本教程,您已经掌握了GLM-4-9B-Chat模型的安装与使用方法。在实际应用中,您可以尝试调整参数设置,以便更好地满足您的需求。此外,我们还提供了以下学习资源,供您参考:

  • 模型官方文档:https://huggingface.co/THUDM/glm-4-9b-chat
  • transformers库官方文档:https://huggingface.co/docs/transformers

希望您能够充分发挥GLM-4-9B-Chat模型的潜力,为您的项目带来更多可能。

glm-4-9b-chat glm-4-9b-chat 项目地址: https://gitcode.com/hf_mirrors/ai-gitcode/glm-4-9b-chat

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

苏杏或Ernest

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值