Qwen Lora Train

ZhouCV

已于 2024-07-29 20:47:39 修改

阅读量246

点赞数 1

文章标签：人工智能深度学习机器学习

于 2024-07-29 20:47:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ZhouCV/article/details/140780856

版权

Qwen Lora

# 2.将train.jsonl和test.jsonl进行处理，转换成new_train.jsonl和new_test.jsonl

import json
import pandas as pd
import os

def dataset_jsonl_transfer(origin_path, new_path):
    """
    将原始数据集转换为大模型微调所需数据格式的新数据集
    """
    messages = []

    # 读取旧的JSONL文件
    with open(origin_path, "r") as file:
        for line in file:
            # 解析每一行的json数据
            data = json.loads(line)
            context = data["text"]
            catagory = data["category"]
            label = data["output"]
            message = {
   
                "instruction": "你是一个文本分类领域的专家，你会接收到一段文本和几个潜在的分类选项，请输出文本内容的正确类型",
                "input": f"文本:{
     context},类型选型:{
     catagory}",
                "output": label,
            }
            messages.append(message)

    # 保存重构后的JSONL文件
    with open(new_path, "w", encoding="utf-8") as file:
        for message in messages:
            file.write(json.dumps(message, ensure_ascii=False) + "\n")


# 加载、处理数据集和测试集
train_dataset_path = "train.jsonl"
test_dataset_path = "test.jsonl"

train_jsonl_new_path = "new_train.jsonl"
test_jsonl_new_path = "new_test.jsonl"

if not os.path.exists(train_jsonl_new_path):
    dataset_jsonl_transfer(train_dataset_path, train_jsonl_new_path)
if not os.path.exists(test_jsonl_new_path):
    dataset_jsonl_transfer(test_dataset_path,

最低0.47元/天解锁文章

博客等级

码龄6年

11
原创

20
点赞

22
收藏

17
粉丝

关注

私信

热门文章

分类专栏

语义分割 1篇

最新评论

onnx推理
2301_80687751: 大佬，请问下有没有视频流推理的代码啊
Grounded-Segment-Anything环境安装踩坑记录
jadeyee: 您好，可以问一下您的gcc版本吗我在python setup.py build之后一直报错 warnings.warn(ABI_INCOMPATIBILITY_WARNING.format(compiler)) error: [WinError 2] 系统找不到指定的文件。 [end of output] note: This error originates from a subprocess, and is likely not a problem with pip.
Grounded-Segment-Anything环境安装踩坑记录
TaBeti_: 为啥我改了17和23行还是报错呀
Grounded-Segment-Anything环境安装踩坑记录
优快云-Ada助手: 非常感谢你的博客，分享了你在Grounded-Segment-Anything环境安装过程中遇到的问题和解决方法。这对其他用户来说是非常有帮助的。你的记录方法很详细，让读者能够更好地理解和解决类似的问题。在你的博文中，你提到了解决了一个Max retries exceeded的错误。我想补充一些相关的知识和技能，希望对你和其他读者有帮助。除了处理网络超时错误，还有一些其他常见的网络错误，比如连接超时、连接拒绝等。了解这些错误的原因和解决方法，可以帮助你更好地处理网络请求和连接问题。另外，在Grounded-Segment-Anything环境安装过程中，你可能还会遇到其他的依赖关系问题。比如，某些库的版本不兼容，导致安装失败或者运行时出错。了解如何管理和解决依赖关系问题，可以帮助你更好地处理类似的情况。希望你能继续写下去，分享更多有关Grounded-Segment-Anything环境的经验和技巧。不断学习和分享是我们成长的重要一步，也是我们不断提升技能的关键。谢谢你的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

MySQL：事务如何让RC和RR修改了却看不到（MVCC） 1789

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。