大数据集处理与自定义分词器构建
1. 数据集噪音过滤决策
GitHub 上任何人都能创建仓库,项目质量参差不齐。在实际应用中,需要考虑是否对训练数据集进行噪音过滤。训练数据集中存在一定噪音能让系统在推理时对含噪输入更具鲁棒性,但会使预测更随机。根据预期用途和系统集成情况,可选择噪音程度不同的数据,并添加预过滤和后过滤操作。
为简化操作,这里不根据星标或使用情况进行过滤,直接获取 GitHub BigQuery 数据集中的所有 Python 文件。不过,数据准备是关键步骤,应尽量清理数据集,需考虑以下几点:
- 平衡数据集中的编程语言。
- 过滤低质量数据(如通过 GitHub 星标或其他仓库引用)。
- 移除重复代码样本。
- 考虑版权信息。
- 研究文档、注释或文档字符串中使用的语言。
- 移除密码或密钥等个人识别信息。
2. 处理大数据集
加载非常大的数据集通常是一项具有挑战性的任务,特别是当数据量超过机器的 RAM 时。例如,这里有 50 GB 的压缩数据和约 200 GB 的未压缩数据,很难将其提取并加载到标准笔记本电脑或台式机的 RAM 中。
Datasets 库设计了两个特性来克服这些限制:内存映射和流式传输。
2.1 内存映射
为克服 RAM 限制, Datasets 使用零拷贝和零开销的内存映射机制,该机制默认启用。每个数据集会缓存在驱动器上的一个文件中,该文件直接反映 RAM 中的内容。 Datasets 不会将数据集加载到 R
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



