大模型如何使用huggingface库传参?配置参数、数据参数、模型参数配置?

前言

在使用大模型时候,我们经常遇到参数传参问题,如何构建一个参数方法,即可使用默认参数,也可使用命令方式传参,是大模型构建的第一步。而大模型经常使用HfArgumentParser+parse_args_into_dataclasses+TrainingArguments等方式来实现。介于此,本篇文章纯粹解读huggingface参数传递与配置内容。

注:huggingface实践知识!

一、parser.parse_args_into_dataclasses

1、parse_args_into_dataclasses的原理

parser.parse_args_into_dataclasses() 是 Hugging Face Transformers 库中的一个方法,用于解析命令行参数并将其转换为 Python 的数据类(dataclass)。在Hugging Face的transformers库中,这个方法通常用于处理模型训练、评估、预测等任务的命令行参数。这些参数可以包括模型类型、训练步数、学习率、数据集路径等。这个方法的工作原理是,它会查找当前模块或父模块中定义的任何数据类(使用&#

### 使用Hugging Face Datasets加载CSV或JSON文件 Hugging Face 的 `datasets` 提供了强大的功能来处理各种结构化数据源,包括 CSV 和 JSON 文件。以下是关于如何使用从这些文件中加载数据集的具体方法。 #### 加载来自CSV文件的数据集 可以利用 `load_dataset()` 函数并指定路径以及设置参数为 `'csv'` 来读取本地或者远程的 CSV 文件: ```python from datasets import load_dataset dataset_csv = load_dataset('csv', data_files='data/binary_classification/train.csv') # 路径应指向train.csv所在位置[^2] ``` 此命令将会把位于指定目录下的训练数据作为数据集加载进来。如果存在多个文件,则可以通过列表形式传递给 `data_files` 参数。 对于测试集合同样适用: ```python test_dataset_csv = load_dataset('csv', data_files='data/binary_classification/test.csv') ``` #### 加载来自JSON文件的数据集 当面对 JSON 数据时,过程相似但需注意其内部结构可能会影响解析方式。假设我们有一个类似于 Bored API 返回的结果存储在一个名为 activities.json 的文件里,那么我们可以这样操作它: ```python import json from datasets import Dataset with open('activities.json', 'r') as f: activity_list = [json.loads(line) for line in f] activity_dataset = Dataset.from_pandas(pd.DataFrame(activity_list)) ``` 这里先手动读入每一行作为一个独立字典加入 list 中再转换成 pandas DataFrame 形式最后构建成为 HuggingFace 的 Dataset 对象[^3]。 当然也可以直接调用内置支持的方法简化流程如下所示: ```python dataset_json = load_dataset('json', data_files='activities.json') ``` 以上两种途径均能有效创建基于原始 JSON 文档的新实例供后续 NLP 或其他机器学习任务所用。 #### 配置适配器 (Optional) 如果有计划应用 PEFT 技术调整模型行为的话,在定义好基础架构之后记得初始化相应的 peft_config 实例传参进去以便进一步定制化需求[^4]: ```python from peft import PeftConfig config_dict = {"my_adapter": PeftConfig(...)} model.config.adapters.update(config_dict) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

tangjunjun-owen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值