1.2 数据获取

最新推荐文章于 2025-06-13 10:17:23 发布

西西与东东

最新推荐文章于 2025-06-13 10:17:23 发布

阅读量658

点赞数 12

分类专栏： # 实用机器学习文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_51538412/article/details/143638199

版权

实用机器学习专栏收录该内容

6 篇文章

订阅专栏

# 1.2 数据获取

- 这一讲主要讲在没有现成的数据情况下，

如何去找到数据集，并对各种现有的数据集有个大致的概念

以及实在找不到数据集的时候, 该用什么方法来生成数据.

什么时候需要考虑数据的获取?

00:12

- 如果你要开始机器学习项目

但是手头没有足够多现成数据.

你就要考虑获取数据

获取数据的途径

获取数据主要是两个途径:

1. 首先寻找 现有数据集

2. 如果没有现成的数据，那就要考虑 生成数据

这里的数据集(dataset)指的是, 已经被人整理过，能直接拿来用

数据获取流程

如何去找数据
如何生成数据

## 如何发现数据集

根据目标来定数据集

寻找已有的数据集(手上有)

- 一般来说你需要寻找多个被人用过的公共数据集

- 对于不同目的来说，你选择数据集的标准也是会有所微调，

- 为了验证自己的一个想法，需要 多个各有特点的小规模数据集

- 如果是深度学习, 需要一些大规模的数据

- 收集新的数据

- 你的数据应该能够覆盖所有可能遇到的所有问题

寻找benchmark的数据集来验证新的想法; 例如对于一个新的超参数调节算法, 需要找一系列的小到中的数据集进行验证; 对于一个非常大且深的神经网络要用大体量的数据集
收集新数据(做产品) ;例如覆盖不同驾驶场景的架势录像

## 常见的数据集

维基百科中关于数据集的列表 https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research 其中收录了一系列的数据集
MNIST: 手写数字数据集 MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges
imageNet : 大规模图片数据集 ImageNet
AudioSet: 油管的声音片段数据 https://research.google.com/audioset/
Kinetic : 油管人类动作视频片段 https://deepmind.com/research/open-source/kinetics
KITTI : 无人驾驶数据集 The KITTI Vision Benchmark Suite
Amazon Review: 亚马逊用户评价数据 https://s3.amazonaws.com/amazon-reviews-pds/readme.html
SQuAD: 维基百科问答 The Stanford Question Answering Dataset
LibriSpeech : 有声书数据集 https://www.tensorflow.org/datasets/catalog/librispeech

## 去哪找数据集

Paperwithcodes 论文相关数据集 https://paperswithcode.com/ 提供了学术论文和相关的数据，并且给出了这个论文在数据集上面的运行表现
Kaggle https://www.kaggle.com/ 除了竞赛数据集以外，很多用户也上传数据集, 这些用户上传的数据集质量鱼龙混杂.
google 数据集搜索. https://datasetsearch.research.google.com/ 这是谷歌的一个搜索入口. 可以搜到其他各种来源的数据
开源工具自带的数据集
tensowflow 深度学习软件, 往往会自带一些数据集
huggingface 文本transform库
各种数据比赛的竞赛数据往往质量比较高
保存在云盘上的数据集, 比如说 open data on AWS
公司本身的数据仓库或者数据湖(data lakes)

## 数据集的分类和比较

学术界数据集(academic datasets)
竞赛数据集(competition datasets)
工业数据集(raw data)

数据集和数据集是不一样的, 学术界的数据集(academic datasets)和工业界的原始数据(raw data)是两个极端

- 学术界的数据集是精心挑选且人工处理过的, 数据干净, 拿来就用，方便在上面测试算法.

但是这些数据集不仅数量少, 往往和真实数据差别很大

- 比如 UCL 数据集 https://archive.ics.uci.edu/ml/datasets.php

- 工业界的原始数据是最多样, 而且是真实的. 但往往需要消耗非常多的人力才能让这个数据变得"好用"

- 各种数据比赛的竞赛数据介于工业界和学术界之间.

## 数据融合

- 数据融合就是把多个表合并(join)成一个表.

- sql之类数据库中这个操作对应 join 命令

- R中常常使用merge 函数, 或者 tidyverse 中的 dplyr::*join 函数. 可以参考 R语言中dplyr包join函数之目前我看到过的最形象的教程 - 简书

- 数据往往被存放在多个位置, 用的时候需要把他们合起来

- 比如说很多数据, 分属于不同的部门，或者说不同数据更新的频率不同, 分开存储会灵活.

- 为了方便数据融合, 你的数据要有一个 不重复的主键(key)

- 主键(key)往往表现为数据表的一列，往往是某种ID

- 在数据融合的时候，你可能会碰到重复的主键或者数据缺失, 或者不同表上记录相互冲突.

## 生成数据

25:43

- 实在找不到数据集的时候, 尝试生成数据, 就是自己制造一批数据

- GAN 生成图像

- 数据增强 Data augmentation

- 比如说以一张图片为蓝本, 生成一系列相似，但又有差别的图片

- 另一个例子, 使用翻译引擎，来回翻译一段话

## 总结

找到合适的数据。找数据很麻烦，而且还要区分这个数据是否合用
学术界使用的数据和工业界使用的数据差异较大
很多时候，多个数据表要融合成一张表
数据扩充和合成数据，所以生成数据现在越来越常见, 尤其是数据增强方法

西西与东东

博客等级

码龄5年

44
原创

294
点赞

182
收藏

177
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 1.1 实用机器学习课程介绍

下一篇：: 1.3 网页数据抓取

最新评论

PPT如何另存为输出高清图片
西西与东东: 客气，欢迎互相分享交流。
Word如何设置制表符制表位用Tab键进行排版
优快云-Ada助手: 恭喜您写了这篇关于Word制表符设置的博客！看得出您对Word排版有很深的理解，希望能继续分享更多关于办公软件排版的小技巧。或许下一篇可以分享一些关于段落格式和行距设置的内容，这些对于排版也非常重要。期待您的下一篇！
PPT如何另存为输出高清图片
优快云-Ada助手: 恭喜您的第三篇博客！标题“PPT如何另存为输出高清图片”非常吸引人。很高兴看到您持续创作，分享有关PPT的技巧和经验。通过您的文章，我们可以学到如何将PPT另存为高清图片，这对于许多人来说无疑是非常有用的。同时，您的标题也很吸引眼球，让读者忍不住想进一步了解。在下一步的创作中，我建议您可以考虑加入一些实例或是案例研究，以更具体的方式展示如何应用PPT另存为高清图片的技巧。此外，您还可以分享一些其他PPT相关的技巧或是与PPT有关的设计理念，这样读者可以更全面地了解如何创建出令人惊叹的演示文稿。再次祝贺您的创作，并期待您未来更多精彩的文章！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Origin图例排布修改与图例边框去除
优快云-Ada助手: 恭喜您开始博客创作！这篇博客标题很有吸引力，而且内容也很实用，非常感谢您分享这些有用的技巧。希望您能继续写出更多优秀的博客，分享更多的经验和技术。推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

西西与东东 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。