- 博客(9)
- 收藏
- 关注
原创 load_dataset本地数据集构建
支持 wav 和 mp3 等音频扩展(aiff,au,avr,caf,flac,htk,svx,mat4,mat5,mpc2k,ogg,paf,pvf,raw,rf64,sd2,sds,ircam,voc,w64,wav,nist,wavex,wve,xi,mp3,opus)。由于 generator 的迭代行为,from_generator() 方法是从生成器创建数据集的最节省内存的方法。当您处理可能无法放入内存的非常大的数据集时,这尤其有用,因为数据集是在磁盘上逐步生成的,然后进行内存映射。
2024-09-03 21:16:49
1818
原创 datasets中load_dataset函数学习
path(str):数据集的路径或名称。例如,“glue”、“squad”、“‘username/dataset_name’”,HF hub上的一个数据集存储库,其中包含一个数据集脚本“dataset_name.py”。-> 根据目录内容加载一个通用的数据集构建器(csv、json、text等),例如“”/路径/to/directory/带/my/csv/data“”。-> 从数据集脚本中加载数据集构建器,例如,‘./dataset/squad’ 或 ‘./dataset/squad/squad.py’。
2024-09-03 20:28:12
2842
原创 XTuner 微调 Llama3 数据格式处理
每条数据,结构由三部分组成:system 、input ( 输入 ) 和 output ( 输出 ) ,我们可以根据这个格式准备自己的数据集。input(输入):这部分提供了执行指令所需的具体信息或上下文。在某些情况下,这个部分可能为空,表示指令本身已经包含了执行任务所需的所有信息。output(输出):这部分是 AI 根据给定的指令和输入生成的答案或结果。system :这部分定义了要求 AI 执行的任务或问题。学习了机智流组织的llama3五一课堂,本文重点针对微调用的数据格式进行理解。
2024-05-05 00:12:39
680
2
原创 ES:存储空间不足的时候,提示marked read-only
cluster.routing.allocation.disk.watermark.low,默认85%,用于控制磁盘的最小使用率;cluster.routing.allocation.disk.watermark.high,默认90%,用于控制磁盘的最大使用率;cluster.routing.allocation.disk.watermark.flood_stage,默认95%,超过此值时,Elasticsearch 变成只读模式,无法写入数据。注:上述配置必须同时设为百分比,或具体字节值,不能混用。
2024-03-20 16:11:22
555
1
原创 简单的还是复杂的?基于软模板和专家模型深度混合的复杂性可控问题生成
给定一篇文章、一个预期的答案和一个复杂性级别,CCQG的任务是生成具有指定复杂性的问题。
2021-12-09 19:55:28
1069
原创 TensorFlow2.0学习第一天:centos7.0环境部署
TensorFlow2.0学习第一天环境部署与使用新的改变环境部署环境部署与使用新的改变计算图 Graph会话Session变量管理 共享reusedefine-and-run忘记TensorFlow1.0,从头学习环境部署下载安装anacondaconda 确认:cmd下执行 conda listcuda 10.0 安装:NVIDIA显卡 (GTX 1060 ...
2019-04-21 16:46:11
1658
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人