零基础学习机器学习【第二天】获取数据集

前言

机器学习就是从数据中发现规律,机器学习分为有监督学习和无监督学习,列举常见的算法。并讲述数据集由特征值和目标值组成。机器学习的前提是要有数据作为支撑。本文主要介绍如何获取数据集

数据集获取

在机器学习算法的学习进程中,我们常常需要数据来进行算法的学习和试验。然而,要找到一组适用于特定机器学习类型的数据并非易事。以下将对常见的开源数据集予以汇总。

Kaggle网址

在Kaggle上有许多公开的数据集可以使用,你可以看到一个数据集列表,可以搜索任何你要在自己的数据模型中用到的特定数据集,而且大多数数据集都是可以直接引用的CSV文件格式。有一些数据格式已经不太流行但仍然有用,例如JSON格式的数据集、SQLite、archives和BigQuery。下面是三个目前最热门的数据集的例子。
使用Kaggle的好处:

  • 大数据竞赛平台
  • 80万科学家
  • 真实数据
  • 数据量巨大

Kaggle网址:https://www.kaggle.com/datasets

UCI数据集网址

UCI 数据集由美国加州大学欧文分校提出,是适合模式识别和机器学习的开源数据集。其数据特点包括多样性,涵盖多种任务类型和多个领域,满足不同需求;规模适中,适合教学和初学者进行初步研究;且更新频繁,保持时效性和实用性。数据格式标准,分为元数据和数据部分,元数据有数据集描述信息,数据部分每一行代表一个样本,属性以逗号或空格分隔。
使用 UCI数据集的好处:

  • 收录450个数据集
  • 覆盖科学、生活、经济等领域
  • 数据量较大

UCI数据集网址:http://archive.ics.uci.edu/

  • 收录450个数据集
  • 覆盖科学、生活、经济等领域
  • 数据量十几万

scikit-learn网址

Scikit-learn 是广泛用于机器学习的 Python 库,提供了有价值的内置数据集。这些数据集具有丰富的数据多样性,包括分类数据集(如鸢尾花和数字数据集)和回归数据集(如波士顿房价数据集)。同时,它们具有出色的数据易用性,加载方便且部分经过预处理。此外,规模适中,适合教学和实验,可视化也很方便,能帮助学生快速理解机器学习算法原理,也便于用户深入探索分析数据。
使用scikit-learn数据集的好处

  • 数据量较小
  • scikit-learn文档完善、容易上手
  • 非常适用于测试和学习

scikit-learn网址:https://scikit-learn.org/stable/datasets

安装scikit-learn库

在cmd命令行窗口输入命令进行安装

pip install scikit-learn

如果下载速度过慢 我们也可以使用清华镜像源来下载安装

python pip install scikit-learn  -i https://pypi.tuna.tsinghua.edu.cn/simple

安装好之后可以通过命令查看是否安装成功

imoprt sklearn

注意:安装scikit-learn需要Numpy,Scipy等库

sklearn包含内容

在这里插入图片描述

  • 分类、聚类、回归
  • 特征工程
  • 模型选择、调优
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值