#03 【chatglm】微调大模型的问题要放在哪个字段？四五个样本怎样让大模型记住？

最新推荐文章于 2025-03-28 15:33:01 发布

原创

最新推荐文章于 2025-03-28 15:33:01 发布 · 2.2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型 #nlp

本文讲述了如何在微调大模型时处理指令、输入和输出字段的选择，以及使用LoRA和AdaLoRA技术处理只有少量样本的情况。作者提供了数据准备、预处理方法和使用AdaLoRA微调ChatGLM2的详细步骤，强调了在模型训练中的实用技巧和注意事项。

公众号每天更新5条大模型问题及解决方案

今天，在【NLP学习群】中，一位同学一下问了2个问题，相信大家在微调时也会遇到这样的问题，自己问题应该放在instruction、input、output哪个字段，用什么格式去训练呢？只有四五个样本，怎样让大模型记住啊？

01 该放在哪个字段？

input 字段是用于存储输入文本的数据库字段，通常包含问题的文本。这些问题文本将作为模型的输入，模型将根据这些输入生成相应的输出。

output 字段通常包含模型的输出文本，这些输出文本是模型根据输入文本生成的回复。

instruction 字段通常用于存储指示模型生成输出的指令，例如，在问题后面加上一个冒号

看不懂吗？看一个示例的代码，你就懂了

Instruction ：“输入一个描述人的句子，输出这个人的好坏”Input ：“他经常扶老奶奶过马路”Output ：“好人”

02 只有几句话，怎样让大模型记住？

这需要用到“LoRA”来微调，这是一种高效的融入学习算法，也是我教得最多的微调方案，类似人类把新知识融入现有知识体系的学习过程。学习时无需新知识特别多的样本，学习后原有的庞大知识和能力可以基本不受影响。

准备数据

1，构造数据

#定义一条知识样本~keyword = '梦中情炉'description = '''梦中情炉一般指的是炼丹工具torchkeras。这是一个通用的pytorch模型训练模版工具。torchkeras是一个三好炼丹炉：好看，好用，好改。她有torch的灵动，也有keras的优雅，并且她的美丽，无与伦比。所以她的作者一个有毅力的吃货给她取了一个别名叫做梦中情炉。'''#对prompt使用一些简单的数据增强的方法，以便更好地收敛。def get_prompt_list(keyword):    return [f'{keyword}',             f'你知道{keyword}吗?',            f'{keyword}是什么？',            f'介绍一下{keyword}',            f'你听过{keyword}吗?',            f'啥是{keyword}？',            f'{keyword}是何物？',            f'何为{keyword}？',           ]data =[{'prompt':x,'response':description} for x in get_prompt_list(keyword) ]dfdata = pd.DataFrame(data)display(dfdata)

import datasets #训练集和验证集一样ds_train_raw = ds_val_raw = datasets.Dataset.from_pandas(dfdata)

2，数据转换

#这是支持 history列处理，并且按照batch预处理数据的方法。 def preprocess(examples):    max_seq_length = cfg

最低0.47元/天解锁文章