Datasets for Large Language Models: A Comprehensive Survey

828 篇文章

已下架不支持订阅

本文深入探讨了大型语言模型(LLM)数据集,包括预训练语料库、指令微调数据集、偏好数据集和评估数据集。调查涵盖了444个数据集,涉及8种语言和32个领域,总计超过774.5 TB的预训练数据和7亿个实例。研究突出了数据集在LLM发展中关键作用,同时指出了当前挑战和未来发展方向,如数据多样性和质量评估。

本文是LLM系列文章,针对《Datasets for Large Language Models: A Comprehensive Survey》的翻译。

摘要

本文对大型语言模型(LLM)数据集进行了探索,这些数据集在LLM的显著进步中发挥着至关重要的作用。数据集作为基础基础设施,类似于支撑和培育LLM发展的根系统。因此,对这些数据集的检查成为研究中的一个关键课题。为了解决LLM数据集目前缺乏全面概述和彻底分析的问题,并深入了解其现状和未来趋势,本调查从五个角度对LLM数据集中的基本方面进行了整合和分类:(1)预训练语料库;(2) 指令微调数据集;(3) 偏好数据集;(4) 评估数据集;(5) 传统的自然语言处理(NLP)数据集。该调查揭示了当前的挑战,并指出了未来调查的潜在途径。此外,还提供了对现有可用数据集资源的全面审查,包括444个数据集的统计数据,涵盖8个语言类别和32个领域。来自20个维度的信息被纳入数据集统计。所调查的预训练语料库的总数据量超过774.5 TB,其他数据集的实例数超过700M。我们的目标是展示LLM文本数据集的整个面貌,为该领域的研究人员提供全面的参考,并为未来的研究做出贡献。相关资源可访问:https://github.com/lmmlzn/Awesome-LLMs-Datasets.

1 引言

随着ChatGPT的发布,在短短几个月内,大型语言模型(LLM)引起了越来越多的研究关注,成为研究热点。各种LLM已经相继开源,参数大小从几十亿到一千多亿不等。例子包括LLaMA、Phi、ChatGLM、QWen、Baichuan等。相当多的工作涉及对基本模型的微调,从而产生性能良好的通用会话模型或特定领域模型。从人的反馈中强化学习(R

### 问题分析 在运行 `install_geographiclib_datasets.sh` 脚本时,如果出现 `shopt: not found` 或某些命令未找到的错误,通常表明脚本使用了 `bash` 特有的功能,而当前默认的 shell 是 `sh` 或其他不兼容的 shell,例如 `dash`。`shopt` 是 `bash` 中用于启用或禁用 shell 可选行为的命令,在非 `bash` 的 shell 中无法识别,因此会报错 [^1]。 此外,某些 Linux 系统(如 Ubuntu)默认使用 `dash` 作为 `/bin/sh`,它不支持 `shopt` 或其他 `bash` 扩展特性,导致脚本执行失败 [^1]。 --- ### 解决方案 #### 1. 使用 `bash` 显式运行脚本 为了避免 shell 不兼容问题,可以使用 `bash` 直接执行脚本: ```bash bash install_geographiclib_datasets.sh ``` 该方式确保脚本在 `bash` 环境下运行,支持 `shopt` 等特性 [^1]。 #### 2. 修改脚本的第一行解释器声明 检查脚本的 shebang 行(即脚本第一行)是否为: ```bash #!/bin/bash ``` 如果不是,应将其修改为上述形式,以确保脚本始终使用 `bash` 运行。如果当前是: ```bash #!/bin/sh ``` 则可能使用的是 `dash`,无法支持 `shopt` 命令 [^1]。 #### 3. 设置默认 shell 为 bash 如果系统默认使用 `dash`,可以通过以下命令将 `/bin/sh` 指向 `bash`: ```bash sudo dpkg-reconfigure dash ``` 在提示是否使用 `dash` 作为默认 `/bin/sh` 时选择“否”,系统将使用 `bash` 替代 [^1]。 #### 4. 检查脚本是否存在语法错误 若脚本中存在语法错误,也可能导致 `shopt` 命令未被正确识别。可以使用 `bash -n` 命令检查脚本语法: ```bash bash -n install_geographiclib_datasets.sh ``` 该命令会检测脚本中的语法问题,但不会执行脚本 [^1]。 #### 5. 手动执行脚本内容 如果脚本仍然无法运行,可以查看其内容并手动执行关键命令。例如: ```bash cat install_geographiclib_datasets.sh ``` 然后逐行复制并粘贴到终端中运行,确保每条命令都能被正确解析 [^1]。 --- ###
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值