本文转载自科多大数据
在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。
那么用于机器学习的开放数据集有哪些呢?文摘菌给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。
首先,在搜索数据集时,在卡内基·梅隆大学有以下说法:
- 数据集不应混乱,因为你不希望花费大量时间清理数据。
- 数据集不应该有太多行或列,因此很容易使用。
- 数据越干净越好 —— 清洗大型数据集相当耗时。
- 数据可以解答一些有趣的问题。
数据集查找器
Kaggle:Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注。
在这个平台中可以找到各种数据,从拉面的评分、篮球数据,到西雅图的宠物牌照应有尽有。
https://www.kaggle.com/
UCI机器学习库(UCI Machine Learning Repository):这是网络上最早的数据集来源之一,是寻找各种有趣数据集的第一选择。虽然用户提供的数据集的清洁度不太一样,但绝大多数都是干净的。我们可以从 UCI 机器学习库直接下载数据,无需注册。
http://mlr.cs.umass.edu/ml/
VisualData:在这里计算机视觉数据集按类别分组,并且支持搜索查询。
https://www.visualdata.io/
公共政府数据集
Data.gov:在这里可以下载到多个美国政府机构的数据。从政府预算到学校成绩。但要注意的是,很多数据还有待进一步研究。
https://www.data.gov/
食品环境地图集(Food Environment Atlas):当地的食物选择如何影响美国饮食的数据。
https://catalog.data.gov/dataset/food-environment-atlas-f4a22
学校系统财务状况(School system finances):这里有美国学校系统财务状况的调查。
https://catalog.data.gov/dataset/annual-survey-of-school-system-finances
慢性病数据(Chronic disease data):美国各地慢性病指标的数据。
https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9
美国国家教育统计中心(The US National Center for Education Statistics):来自美国和世界各地的教育机构和教育人口统计数据。
https://nces.ed.gov/
英国数据服务:英国最大的社会、经济和人口数据收集机构。
https://www.