vllm 部署GLM4模型进行 Zero-Shot 文本分类实验,让大模型给出分类原因,准确率可提高6%

简介

本文记录了使用 vllm 部署 GLM4-9B-Chat 模型进行 Zero-Shot 文本分类的实验过程与结果。通过对 AG_News 数据集的测试,研究发现大模型在直接进行分类时的准确率为 77%。然而,让模型给出分类原因描述(reason)后,准确率显著提升至 83%,提升幅度达 6%。这一结果验证了引入 reason 机制的有效性。文中详细介绍了实验数据、提示词设计、模型推理方法及评估手段。

复现自这篇论文:Text Classification via Large Language Models. https://arxiv.org/abs/2305.08377 让大模型使用reason。

数据集

现在要找一个数据集做实验,进入 https://paperswithcode.com/。
找到 文本分类,看目前的 SOTA 是在哪些数据集上做的,文本分类. https://paperswithcode.com/task/text-classification

在这里插入图片描述

实验使用了 AG_News 数据集。若您对数据集操作技巧感兴趣,可以参考这篇文章:

datasets库一些基本方法:filter、map、select等. https://blog.youkuaiyun.com/sjxgghg/article/details/141384131

实验设置

settings.py 文件中,我们定义了一些实验中使用的提示词:

LABEL_NAMES = ['World', 'Sports', 'Business', 'Science | Technology']  
  
BASIC_CLS_PROMPT = """  
你是文本分类专家,请你给下述文本分类,把它分到下述类别中:  
* World  
* Sports  
* Business  
* Science | Technology  
  
text是待分类的文本。请你一步一步思考,在label中给出最终的分类结果:  
text: {text}  
label:   
"""  
  
REASON_CLS_PROMPT = """  
你是文本分类专家,请你给下述文本分类,把它分到下述类别中:  
* World  
* Sports  
* Business  
* Science | Technology  
  
text是待分类的文本。请你一步一步思考,首先在reason中说明你的判断理由,然后在label中给出最终的分类结果:  
text: {text}  
reason:   
label:   
""".lstrip()  
  
data_files = [  
    "data/basic_llm.csv",  
    "data/reason_llm.csv"  
]  
  
output_dirs = [  
    "output/basic_vllm.pkl",  
    "output/reason_vllm.pkl"  
]  

这两个数据文件用于存储不同提示词的大模型推理数据:

  • data/basic_llm.csv

  • data/reason_llm.csv

数据集转换

为了让模型能够执行文本分类任务,我们需要对原始数据集进行转换,添加提示词。

原始的数据集样式,要经过提示词转换后,才能让模型做文本分类。

代码如下:

data_processon.ipynb

from datasets import load_dataset  
  
from settings import LABEL_NAMES, BASIC_CLS_PROMPT, REASON_CLS_PROMPT, data_files  
  
import os  
os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'  
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'  
  
# 加载 AG_News 数据集的测试集,只使用test的数据去预测  
ds = load_dataset("fancyzhx/ag_news")  
  
# 转换为 basic 提示词格式  
def trans2llm(item):  
    item["text"] = BASIC_CLS_PROMPT.format(text=item["text"])  
    return item  
ds["test"].map(trans2llm).to_csv(data_files[0], index=False)  
  
# 转换为 reason 提示词格式  
def trans2llm(item):  
    item["text"] = REASON_CLS_PROMPT.format(text=item["text"])  
    return item  
ds["test"].map(trans2llm).to_csv(data_files[1], index=False)  

上述代码实现的功能就是把数据集的文本,放入到提示词的{text} 里面。

模型推理

本文使用 ZhipuAI/glm-4-9b-chat. https://www.modelscope.cn/models/zhipuai/glm-4-9b-chat 智谱9B的chat模型,进行VLLM推理。

为了简化模型调用,我们编写了一些实用工具:

utils.py

import pickle  
from transformers import AutoTokenizer  
from vllm import LLM, SamplingParams  
from modelscope import snapshot_download  
  
  
def save_obj(obj, name):  
    """  
    将对象保存到文件  
    :param obj: 要保存的对象  
    :param name: 文件的名称(包括路径)  
    """  
    with open(name, "wb") as f:  
        pickle.dump(obj, f, pickle.HIGHEST_PROTOCOL)  
  
  
def load_obj(name):  
    """  
    从文件加载对象  
    :param name: 文件的名称(包括路径)  
    :return: 反序列化后的对象  
    """  
    with open(name, "rb") as f:  
        return pickle.load(f)  
  
  
  
def glm4_vllm(prompts, output_dir, temperature=0, max_tokens=1024):  
    # GLM-4-9B-Chat-1M  
    max_model_len, tp_size = 131072, 1  
    model_dir = snapshot_download('ZhipuAI/glm-4-9b-chat')  
  
    tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)  
    llm = LLM(  
        model=model_dir,  
        tensor_parallel_size=tp_size,  
        max_model_len=max_model_len,  
        trust_remote_code=True,  
        enforce_eager=True,  
    )  
    stop_token_ids = [151329, 151336, 151338]  
    sampling_params = SamplingParams(temperature=temperature, max_tokens=max_tokens, stop_token_ids=stop_token_ids)  
  
    inputs = tokenizer.apply_chat_template(prompts, tokenize=False, add_generation_prompt=True)  
    outputs = llm.generate(prompts=inputs, sampling_params=sampling_params)  
  
    save_obj(outputs, output_dir)  

glm4_vllm :

  • 参考自 https://www.modelscope.cn/models/zhipuai/glm-4-9b-chat

给大家封装好了,以后有任务,直接调用函数

save_obj:

  • 把python对象,序列化保存到本地;

    在本项目中,用来保存 vllm 推理的结果;

模型推理代码

from datasets import load_dataset  
  
from utils import glm4_vllm  
from settings import data_files, output_dirs  
  
  
# basic 预测  
basic_dataset = load_dataset(  
    "csv",  
    data_files=data_files[0],  
    split="train",  
)  
prompts = []  
for item in basic_dataset:  
    prompts.append([{"role": "user", "content": item["text"]}])  
glm4_vllm(prompts, output_dirs[0])  
  
  
# reason 预测,添加了原因说明  
reason_dataset = load_dataset(  
    "csv",  
    data_files=data_files[1],  
    split="train",  
)  
prompts = []  
for item in reason_dataset:  
    prompts.append([{"role": "user", "content": item["text"]}])  
glm4_vllm(prompts, output_dirs[1])  
  
  
# nohup python cls_vllm.py > cls_vllm.log 2>&1 &  

在推理过程中,我们使用了 glm4_vllm 函数进行模型推理,并将结果保存到指定路径。

output_dirs: 最终推理完成的结果输出路径;

评估

在获得模型推理结果后,我们需要对其进行评估,以衡量分类的准确性。

eval.ipynb

from settings import LABEL_NAMES  
from utils import load_obj  
  
from datasets import load_dataset  
from settings import data_files, output_dirs  
  
import os  
os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'  
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'  
  
ds = load_dataset("fancyzhx/ag_news")  

def eval(raw_dataset, vllm_predict):  
  
    right = 0 # 预测正确的数量  
    multi_label = 0 # 预测多标签的数量  
  
    for data, output in zip(raw_dataset, vllm_predict):  
        true_label = LABEL_NAMES[data['label']]  
  
        output_text = output.outputs[0].text  
        pred_label = output_text.split("label")[-1]  
  
        tmp_pred = []  
        for label in LABEL_NAMES:  
            if label in pred_label:  
                tmp_pred.append(label)  
  
        if len(tmp_pred) > 1:  
            multi_label += 1  
  
        if " ".join(tmp_pred) == true_label:  
            right += 1  
  
    return right, multi_label  

我们分别对 basic 和 reason 预测结果进行了评估。

basic 预测结果的评估 :

dataset = load_dataset(  
    'csv',   
    data_files=data_files[0],   
    split='train'  
    )  
output = load_obj(output_dirs[0])  
  
eval(dataset, output)  

输出结果:

(5845, 143)  

加了reason 预测结果评估:

dataset = load_dataset(  
    'csv',   
    data_files=data_files[1],   
    split='train'  
    )  
output = load_obj(output_dirs[1])  
  
eval(dataset, output)  

输出结果:

(6293, 14)  

评估结果如下:

  • basic: 直接分类准确率为 77%(5845/7600),误分类为多标签的样本有 143 个。

  • reason: 在输出原因后分类准确率提高至 83%(6293/7600),多标签误分类样本减少至 14 个。

误分类多标签: 这是单分类问题,大模型应该只输出一个类别,但是它输出了多个类别;

可以发现,让大模型输出reason,其分类准确率提升了5%。

在误分类多标签的数量也有所下降。原先误分类多标签有143条数据,使用reason后,多标签误分类的数量降低到了14条。

这些结果表明,让模型输出 reason的过程,确实能够有效提升分类准确性,并减少误分类多个标签的情况。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

<think>嗯,用户希望了解AI智能问答系统的开发思路和方法,而且特别提到要参考之前提供的几个引用内容。用户看起来是技术人员或产品经理,正在规划或研究这类系统的构建。从引用内容来看,用户提供了丰富的行业案例和技术方向:[^1]是通用场景的智能问答系统概述;[^2]展示了京东的AI客服实践;[^3]是医疗知识图谱的具体实现;[^4]则涉及最新的大模型和RAG技术。用户没有提出具体行业限制,说明需要通用方法论。我考虑设计一个分层的技术框架来组织回复。核心难点在于如何平衡知识覆盖率和响应准确性——纯规则系统太局限,纯大模型又可能胡编乱造。引用[^4]提到的RAG架构值得重点阐述,既能利用企业私有数据,又能保持大语言模型的推理能力。注意到用户上次询问过“开发思路和方法”,这次更聚焦“思路”。考虑先展示宏观技术选型(规则/检索/生成/混合四类),再用分层架构图解释组件关系。对于企业用户,还需要强调知识获取成本这个痛点,引用[^3]医疗知识图谱的构建过程能很好说明这一点。准备提到知识表示的技术细节。虽然用户可能是决策者,但引用[^4]里的RAG实现机制值得解释清楚——比如怎样用Elasticsearch检索文档块,再用DeepSeek-V2模型生成答案。LangChain这类协调工具的使用案例(引用[^4])应该有助于理解工程落地。最后规划优化方向时,准备结合引用[^2]的京东案例说明多轮对话和意图识别,这比单纯罗列技术术语更有说服力。用户没提预算限制,所以方案会包含高端选项如大模型微调,但也会给出基于规则的轻量级替代方案。</think> 好的,基于提供的引用信息并结合AI智能问答系统开发的行业实践,以下是**AI智能问答系统**的**开发思路与方法**的详细解析,旨在提供一个技术清晰、步骤明确的构建框架: ## 核心目标:构建一个能准确理解用户自然语言问题,并从特定知识源(结构化/非结构化)中检索、推理并生成高质量回答的系统。 --- ## 一、核心开发思路(宏观架构) ### 1. 确定系统类型与知识源 (核心差异点) * **领域/任务导向**:确定是**开放域**(回答任意问题,依赖通用知识)还是**垂直领域**(如医疗、金融、客服,依赖专业知识图谱/文档)[^3]。 * **知识来源**: * **结构化知识**:如知识图谱 (Entity-Relationship)、数据库。[^3] * **非结构化知识**:文档(PDF, Word)、网页、API接口响应、对话记录。[^4] * **混合知识**:结合结构化和非结构化知识(主流趋势)。[^3][^4] * **问答方式**:单轮问答、多轮对话、复杂推理与任务执行。[^2] ### 2. 主流技术路线选择(关键决策) * **基于规则/模板**:早期系统常用,适合结构清晰、问题模式固定的简单场景(如QA对匹配)。灵活性差。 * **基于检索(IR)**:将问题与文档库中候选文档/片段进行匹配(如TF-IDF, BM25, 向量召回),返回最相关的片段。精度有限,缺乏深入理解。[^4]提及`Retriever` * **基于深度学习/预训练模型**:利用BERT、RoBERTa等模型进行问题-答案匹配(QA Matching)或答案抽取(Answer Extraction)。理解能力显著提升。 * **基于大模型生成(Generative)**:使用GPT、LLaMA、DeepSeek、Qwen等大语言模型直接理解问题并生成答案(`Zero-shot`/`Few-shot`)。能力强,但可能生成不准确信息(“幻觉”)。[^4]提及`Generator` * **基于RAG(Retrieval-Augmented Generation) - 混合路线(强烈推荐)[^4]**: * **Retrieve**:问题输入 -> `Retriever` (e.g., Elasticsearch, FAISS向量库) -> 检索相关文档/知识片段。 * **Augment**:将检索到的片段(上下文)与原始问题一起输入给**Generator**(LLM)。 * **Generate**:LLM基于上下文和问题生成更准确、事实依据更强的答案。**大幅减少“幻觉”,提升回答可靠性**。这是当前最主流和高效的方法。 * **基于智能体(Agent)**:利用Agent框架(LangChain, Ray, ReAct)协调多个组件(调用API、查询数据库、执行工具),完成复杂任务和多轮对话。适合需要逻辑推理和动作执行的场景。[^2][^4] * **基于知识图谱推理**:特别适用于结构化知识强(如医疗、金融),需要进行关系推理的场景。问题经过NER、实体链接、关系抽取匹配到知识图谱的路径,得到答案。[^3] ### 3. 分层架构设计(典型技术栈) ``` +------------------------+ | 用户界面 | (Web/Mobile App, Chat Widget) +------------------------+ ↓ +------------------------+ | 接口层(API) | (Spring Boot/Flask/FastAPI 提供REST/gRPC接口) +------------------------+ ↓ +------------------------+ | 核心处理引擎 | |------------------------| | * 理解模块 | (意图识别、实体识别、情感分析[^2]) | * 检索模块 | (Elasticsearch, FAISS, Solr, BM25/Vector检索[^4]) | * 推理/生成模块 | (LLM: Qwen/DeepSeek/LLaMA; KBQA引擎[^3]) | * 智能体协调器 (可选) | (LangChain[^4], Ray, ReAct) | * 对话状态管理(可选) | (跟踪多轮上下文[^2]) +------------------------+ ↓ +------------------------+ | 数据层 | |------------------------| | * 知识存储 | (知识图谱图数据库: Neo4j/JanusGraph; 文档向量库: FAISS/Chroma[^4]) | * 模型存储 | (Hugging Face Hub, 本地模型服务器) | * 文档存储 | (对象存储: MinIO/S3; DB: MySQL/PG) +------------------------+ ``` --- ## 二、关键开发方法与步骤(实践指南) ### 1. 需求分析与知识获取 * **明确用户场景与问题域**:谁是用户?会问什么?期望的回答格式?(FAQ回复?段落?精确数据?) * **知识收集与清洗**: * 爬取网页/文档(需合规)。 * 清洗整理内部文档(PDF, Excel)。 * 构建结构化知识图谱(定义Schema, 抽取实体关系,可能需要NLP工具或人工标注)[^3]。 * **定义问题分类体系**:识别常见意图类别(e.g., ”产品咨询“、”故障报修“、”业务查询“)。 ### 2. 数据处理与知识库构建(系统基石) * **文档切片与向量化**: * 将文档按语义分割成`chunks`。 * 使用嵌入模型(如Text-Embedding-Ada-002, Sentence-BERT, m3e)将`chunks`转换为向量,存入向量数据库(FAISS, Chroma)供检索。[^4] * **知识图谱构建**: * 定义Schema:实体类型(如药品、疾病、症状)及其关系(“治疗”、“引起”、“属于”)。 * 实体/关系抽取:利用NER模型和关系抽取模型从文本中结构化信息,或从结构化数据库转换导入。 * 存储:使用图数据库(Neo4j)高效存储和查询关系。[^3] * **传统索引构建**:对文本构建倒排索引(如Elasticsearch)支持关键词检索。 ### 3. 核心模块开发 * **自然语言理解(NLU)**: * **意图识别**:分类模型(CNN, LSTM, BERT)判断用户问题意图(e.g., `用户说“怎么退款?” -> 意图: “退费咨询”`)。 * **实体识别**:NER模型识别问题中的关键实体(`用户说“阿斯匹林治什么病?” -> 实体: [“阿斯匹林” (药品)]`)。[^2][^3] * **语义表示**:将用户问题转化为向量(用于检索)或结构化查询(用于KG)。 * **知识检索**: * **向量检索**:计算问题向量与知识库中`chunks`向量的相似度(Cosine),返回Top-K相关片段。[^4] * **图谱查询**:将识别的实体和关系映射为图谱查询语句(Cypher/SPARQL),执行查询得到答案三元组或路径。[^3] * **混合检索**:结合向量检索(语义相关)和关键词检索(精确匹配词)。[^4] * **答案生成/推理**: * **RAG**:将检索到的Top-K相关`chunks`作为`context`,连同原始问题一起输入给LLM(`Generator`),提示词模板如下: ```prompt 你是一个客服助理/XX领域专家。请**严格根据**下面提供的上下文信息回答问题。如果上下文无法回答,请回答“我不知道”。上下文:{context_chunk1} ... {context_chunkN} 问题:{user_question} 答案: ``` * **KGQA引擎**:基于查询到的图谱路径或三元组,组装自然语言答案。[^3] * **纯生成(谨慎使用)**:直接用LLM回答问题(适合创意性、开放性回答,不适合精准事实问答)。 * **对话管理与智能体(进阶)**: * **跟踪对话状态**:维护历史对话记录(Memory)。 * **状态机/策略路由**:根据NLU结果和当前状态决定下一步动作(如确认用户意图、反问澄清、调用API)。 * **智能体编排**:使用LangChain等框架将检索器、API调用器、KG查询器、LLM作为工具(Tools)协调使用。[^4] ### 4. 模型训练与优化(提升性能) * **模型选择与调优**: * 基础模型:选择合适的开源/商用LLM(Qwen, DeepSeek, GLM等)作为Generator。[^4] * 嵌入模型:选用高质量嵌入模型(m3e, bge-m3)。 * **微调(Fine-tuning)**:当有**充足标注数据**时,对特定任务模型(意图识别, NER)或基础LLM进行领域微调(Domain Adaptation),大幅提升效果。方法:LoRA/QLoRA微调。 * **提示工程(Prompt Engineering)**:不断优化给LLM的提示词模板(System Prompt, Few-Shot示例)提高RAG效果。 * **检索优化**: * 优化文档切分策略(按句子/段落/语义边界)。 * 重排序(Re-ranking):使用交叉编码器模型(Cross-Encoder)对初步检索出的Top-N文档进行精排。 * **评估与反馈闭环**: * **离线评估**:BLEU/ROUGE、准确率(Exact Match - EM)、F1值、相关性打分、人工评估。 * **在线评估(A/B测试)**:上线后对比不同策略(模型、检索参数)。 * **利用用户反馈**:记录用户对回答的点赞/点踩/修改建议,用于后续模型迭代。 ### 5. 部署与集成 * **后端API服务化**:使用Spring Boot(Java)或Flask/FastAPI(Python)封装核心引擎。 * **前端对接**:通过Web/App SDK或Chat Widget集成。 * **企业集成**:与企业IM(钉钉/企微/飞书)、CRM、知识库系统集成。 * **可观测性**:监控系统响应时间、错误率、LLM调用情况、检索结果质量。 * **弹性伸缩**:应对高并发(Kubernetes集群部署)。 * **安全性**:用户权限控制、输入输出过滤、敏感信息脱敏。 --- ## 三、关键考量因素 1. **准确性 vs 流畅性**:RAG路线通过提供上下文在确保准确性的同时保持流畅性,通常优于纯生成模型。[^4] 2. **知识更新**:文档知识更新后需重新切片嵌入到向量库;图谱需维护知识更新流程。增量更新能力很重要。 3. **成本**:LLM API调用费用(商用)或GPU推理成本(开源自部署)。向量检索也需一定计算资源。 4. **幻觉控制**:通过RAG的强约束和明确提示(“根据上下文回答”)是主要对抗幻觉手段。 5. **垂直领域挑战**:领域术语、知识表示、模型适应是难点,通常需要微调或精心构建知识图谱。[^3] --- ##
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值