机器学习---基本ML建模(数据一)

该文讨论了数据获取的流程,包括发现可用数据、识别数据集、收集新数据,并举例说明。提到常用的数据集如MNIST和ImageNet。文章还提到了学术数据集、竞赛数据集和原始数据集的优缺点,以及数据集成和处理中的挑战,如数据清洗、数据整合和处理管道。此外,数据增强和人工合成数据也是实践中常见的策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

博主这个系列是根据李沐老师的路线更新,自从看了现在的GPT-4与国内的文心一言对比,博主越来越觉得要接触新技术就需要从国外来了解一手资料就需要阅读英文文献,李沐老师的课正好有这个契机来让我完成这个想法。博主会在其中加入英译汉的版本,基本上就是有四级的水平来锻炼自己的能力。

数据(一)

数据获取

Flow chart for data acquisition(数据采集流程图)

Discover what data is available

  • ldentify existing datasets(数据集)

  • Find benchmark(基准) datasets to evaluate(评价) a new idea

    • E.g.A diverse(不同) set(多样化) of small to medium datasets for a new hyper-parameter tuning algorithm(超参数调优算法)

    • E.g. Large scale datasets for a very big deep neural network(非常大的深度神经网络的大规模数据集)

  • Collect new data

    • E.g.driving videos covering different driving scenarios(涵盖不同驾驶场景的驾驶视频)

Popular ML datasets

  • MNIST:digits written

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值