Day26上 - 大模型的处理流程

原创

于 2024-12-16 17:36:26 发布 · 904 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

数据的处理流程

1. 用户进行提问 query

2. 套模板，格式化输入

system
user
把你的输入，变成模型真正需要的输入文本

3. 使用分词器

分词
input_ids
attention_mask

4. 向量化 embedding

5. 位置编码 encoding

6. 循环过程：

自注意力特征抽取：masked attention
前馈网络层 FF, MLP, 先升再降，做特征的后处理

7. 输出层，输出结果

linear
- d_model
- dict_len

模型地址：https://modelscope.cn/models/ZhipuAI/glm-4-9b-chat

前置操作：打开ModelScope GPU环境，下载模型文件。

"""
    1. 引入依赖
"""
# PyTorch 框架
import torch
# 模型加载器
from transformers import AutoModelForCausalLM
# 分词器加载器
from transformers import AutoTokenizer

# 模型地址
# chat = instruct
model_dir = "glm-4-9b-chat"
# GPU
device = "cuda" if torch.