前言
机器学习就是从数据中发现规律,机器学习分为有监督学习和无监督学习,列举常见的算法。并讲述数据集由特征值和目标值组成。机器学习的前提是要有数据作为支撑。本文主要介绍如何获取数据集
数据集获取
在机器学习算法的学习进程中,我们常常需要数据来进行算法的学习和试验。然而,要找到一组适用于特定机器学习类型的数据并非易事。以下将对常见的开源数据集予以汇总。
Kaggle网址
在Kaggle上有许多公开的数据集可以使用,你可以看到一个数据集列表,可以搜索任何你要在自己的数据模型中用到的特定数据集,而且大多数数据集都是可以直接引用的CSV文件格式。有一些数据格式已经不太流行但仍然有用,例如JSON格式的数据集、SQLite、archives和BigQuery。下面是三个目前最热门的数据集的例子。
使用Kaggle的好处:
- 大数据竞赛平台
- 80万科学家
- 真实数据
- 数据量巨大
Kaggle网址:https://www.kaggle.com/datasets
UCI数据集网址
UCI 数据集由美国加州大学欧文分校提出,是适合模式识别和机器学习的开源数据集。其数据特点包括多样性,涵盖多种任务类型和多个领域,满足不同需求;规模适中,适合教学和初学者进行初步研究;且更新频繁,保持时效性和实用性。数据格式标准,分为元数据和数据部分,元数据有数据集描述信息,数据部分每一行代表一个样本,属性以逗号或空格分隔。
使用 UCI数据集的好处:
- 收录450个数据集
- 覆盖科学、生活、经济等领域
- 数据量较大
UCI数据集网址:http://archive.ics.uci.edu/
- 收录450个数据集
- 覆盖科学、生活、经济等领域
- 数据量十几万
scikit-learn网址
Scikit-learn 是广泛用于机器学习的 Python 库,提供了有价值的内置数据集。这些数据集具有丰富的数据多样性,包括分类数据集(如鸢尾花和数字数据集)和回归数据集(如波士顿房价数据集)。同时,它们具有出色的数据易用性,加载方便且部分经过预处理。此外,规模适中,适合教学和实验,可视化也很方便,能帮助学生快速理解机器学习算法原理,也便于用户深入探索分析数据。
使用scikit-learn数据集的好处
- 数据量较小
- scikit-learn文档完善、容易上手
- 非常适用于测试和学习
scikit-learn网址:https://scikit-learn.org/stable/datasets
安装scikit-learn库
在cmd命令行窗口输入命令进行安装
pip install scikit-learn
如果下载速度过慢 我们也可以使用清华镜像源来下载安装
python pip install scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple
安装好之后可以通过命令查看是否安装成功
imoprt sklearn
注意:安装scikit-learn需要Numpy,Scipy等库
sklearn包含内容
- 分类、聚类、回归
- 特征工程
- 模型选择、调优