Day28下 - 大模型微调:酒店评论情感分析

一、前置准备

1. 下载 LLaMA Factory

https://github.com/hiyouga/LLaMA-Factory.git

 搭建过程详见:https://blog.youkuaiyun.com/CSBLOG/article/details/144584581

2. 选择 预训练模型 和 prompt指令模型

预训练阶段在实际工作中,一般是用不上的,但我们可以学习了解。为了方便节省资源,我们可以先选个小点的模型试一试。

这里预训练模型选择 通义千问2.5-0.5B-预训练 ,指令模型选择 Qwen2.5-0.5B-Instruct

3. 下载 预训练模型 和 指令模型

下载预训练模型:

git clone https://www.modelscope.cn/Qwen/Qwen2.5-0.5B.git

下载指令模型:

git clone https://www.modelscope.cn/Qwen/Qwen2.5-0.5B-Instruct.git

4. 打开 LLaMA Factory 的webui,修改参数

(1)查看并确保 模型名称 和 模型路径 是否正确

 (2)选择推理引擎,实际工作中一般选择 vllm

 (3)按需决定是否还需要调整其他参数

5. 对话测试 

 二、数据处理

1. 数据集构建

通过查看 LLaMA-Factory/data/README_zh.md 文件可知,它需要什么样的数据。

 先找一小段文本尝试一下

import json

texts = """
1.流行性感冒:流行性感冒潜伏期多为1~7天,临床表现主要以发热(体温可达39~40℃)、头痛、肌痛和全身不适起病。除了全身症状,常有咽喉痛、干咳,可有鼻塞、流涕、胸骨后不适等。部分有呕吐、腹痛、腹泻等消化道症状。流感病原学检测阳性。
2.过敏性鼻炎:有过敏史,常年打喷嚏和流涕,鼻黏膜苍白伴有瘙痒感,鼻分泌物内嗜酸粒细胞增加等。
3.萎缩性鼻炎:大多是鼻腔通畅,鼻和鼻咽部干燥,鼻分泌物为块状、管筒状脓痂,伴有呼气恶臭、嗅觉减退等症状。
4.血管舒缩性鼻炎:无过敏史,常出现鼻黏膜间歇性血管充盈、打喷嚏和流清涕,吸入干燥空气后症状加重。
5.上呼吸道感染性疾病:如细菌性咽-扁桃体炎,疱疹性咽峡炎等均有其病变部位的特异性体征。前者有咽部充血,扁桃体肿大,表面有脓性分泌物等;后者软腭、咽和扁桃体表面有灰白色疱疹和浅表溃疡伴周围红晕。
"""

samples = []
for text in texts.split("\n"):
    if text:  # 检查行是否非空
        sample = dict(text=text)  # 创建一个字典,键为 'text',值为当前行的文本
        samples.append(sample)  # 将字典添加到 samples 列表中

运行结果:

 保存数据

with open(file="samples.json", mode="w", encoding="utf8") as f:
    json.dump(obj=samples, fp=f, ensure_ascii=False)

运行后,会在当前目录下生成 samples.json 文件。

想要在 LLaMA-Factory webui 的数据集中显示,还需要参照 README_zh.md 文件中的方式进行注册,因为它是通过dataset_info.js

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值