27、大数据集处理与自定义分词器构建

大数据集处理与自定义分词器构建

1. 数据集噪音过滤决策

GitHub 上任何人都能创建仓库,项目质量参差不齐。在实际应用中,需要考虑是否对训练数据集进行噪音过滤。训练数据集中存在一定噪音能让系统在推理时对含噪输入更具鲁棒性,但会使预测更随机。根据预期用途和系统集成情况,可选择噪音程度不同的数据,并添加预过滤和后过滤操作。

为简化操作,这里不根据星标或使用情况进行过滤,直接获取 GitHub BigQuery 数据集中的所有 Python 文件。不过,数据准备是关键步骤,应尽量清理数据集,需考虑以下几点:
- 平衡数据集中的编程语言。
- 过滤低质量数据(如通过 GitHub 星标或其他仓库引用)。
- 移除重复代码样本。
- 考虑版权信息。
- 研究文档、注释或文档字符串中使用的语言。
- 移除密码或密钥等个人识别信息。

2. 处理大数据集

加载非常大的数据集通常是一项具有挑战性的任务,特别是当数据量超过机器的 RAM 时。例如,这里有 50 GB 的压缩数据和约 200 GB 的未压缩数据,很难将其提取并加载到标准笔记本电脑或台式机的 RAM 中。

Datasets 库设计了两个特性来克服这些限制:内存映射和流式传输。

2.1 内存映射

为克服 RAM 限制, Datasets 使用零拷贝和零开销的内存映射机制,该机制默认启用。每个数据集会缓存在驱动器上的一个文件中,该文件直接反映 RAM 中的内容。 Datasets 不会将数据集加载到 R

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值