大数据学习之资源干货:机器学习高质量数据集大集合

本文整理了多个用于机器学习的高质量数据集来源,包括Kaggle、UCI机器学习库等,涵盖了从计算机视觉到经济金融、自然语言处理、自动驾驶等多个领域,这些数据集对模型训练至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文转载自科多大数据

在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。

那么用于机器学习的开放数据集有哪些呢?文摘菌给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。

首先,在搜索数据集时,在卡内基·梅隆大学有以下说法:

  • 数据集不应混乱,因为你不希望花费大量时间清理数据。
  • 数据集不应该有太多行或列,因此很容易使用。
  • 数据越干净越好 —— 清洗大型数据集相当耗时。
  • 数据可以解答一些有趣的问题。

数据集查找器

KaggleKaggle是由联合创始人、首席执行官安东尼·高德布卢姆(Anthony Goldbloom2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注。

在这个平台中可以找到各种数据,从拉面的评分、篮球数据,到西雅图的宠物牌照应有尽有。

https://www.kaggle.com/

UCI机器学习库(UCI Machine Learning Repository):这是网络上最早的数据集来源之一,是寻找各种有趣数据集的第一选择。虽然用户提供的数据集的清洁度不太一样,但绝大多数都是干净的。我们可以从 UCI 机器学习库直接下载数据,无需注册。

http://mlr.cs.umass.edu/ml/

VisualData在这里计算机视觉数据集按类别分组,并且支持搜索查询。

https://www.visualdata.io/

公共政府数据集

Data.gov在这里可以下载到多个美国政府机构的数据。从政府预算到学校成绩。但要注意的是,很多数据还有待进一步研究。

https://www.data.gov/

食品环境地图集(Food Environment Atlas):当地的食物选择如何影响美国饮食的数据。

https://catalog.data.gov/dataset/food-environment-atlas-f4a22

学校系统财务状况(School system finances):这里有美国学校系统财务状况的调查。

https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

慢性病数据(Chronic disease data):美国各地慢性病指标的数据。

https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

美国国家教育统计中心(The US National Center for Education Statistics):来自美国和世界各地的教育机构和教育人口统计数据。

https://nces.ed.gov/

英国数据服务:英国最大的社会、经济和人口数据收集机构。

https://www.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值