scikit-learn的基本用法(二)——数据集的使用

最新推荐文章于 2025-07-13 19:24:50 发布

原创最新推荐文章于 2025-07-13 19:24:50 发布 · 2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#sklearn

TensorFlow 同时被 2 个专栏收录

59 篇文章

订阅专栏

TensowFlow入门与实践

59 篇文章

订阅专栏

本文通过实例展示了scikit-learn中数据集的使用方法，包括直接加载现有数据集和构建自定义数据集的过程，并提供了线性回归模型训练及可视化结果。

文章作者：Tyan
博客：noahsnail.com | 优快云 | 简书

本文主要是演示scikit-learn自带的数据集的一些用法。本文介绍两种sklearn构建数据集的方式，一种是直接加载已有的数据集，另一种是通过工具构建一个数据集。

Demo

import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.linear_model import LinearRegression

# 直接加载数据集
loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target

# 定义模型
model = LinearRegression()
# 学习参数
model.fit(data_X, data_y)
# 计算预测值
result = model.predict(data_X)


# 创造一些线性回归的数据点
X, y = datasets.make_regression(n_samples = 100, n_features = 1, n_targets = 1, noise = 5)
# 绘制创造的数据集的散点图
plt.scatter(X, y)
plt.show()

结果

[ 30.00821269  25.0298606   30.5702317   28.60814055]
[ 24.   21.6  34.7  33.4]

参考资料

https://www.youtube.com/user/MorvanZhou

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SnailTyan

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

R语言和scikitlearn：数据挖掘和机器学习的基础

AI天才研究院

07-18

2867

作者：禅与计算机程序设计艺术 R语言和Python作为最主要的数据分析和数据科学语言之一，也是当下最流行的工具。在数据分析领域里，R语言与Python在很多方面都是竞争对手。其中，R语言具有统计和数据处理功能更加强大、界面更友好、扩展性更佳等优点；而Python则具有更高级的开发能力、简单易懂、语法简洁等特点，并且拥有大量可用的第三方库和

scikit-learn的基本用法——模型保存与加载

Never-Giveup的博客

02-13

966

import pickle from sklearn.svm import SVC from sklearn import datasets # 定义分类器 svm = SVC() # 加载iris数据集 iris = datasets.load_iris() # 读取特征 X = iris.data # 读取分类标签 y = iris.target # 训练模型 svm.fit(X, y)...

参与评论您还未登录，请先登录后发表或查看评论

scikit-learn内置数据集

weixin_38166557的博客

11-08

300

使用 Scikit-learn 进行机器学习

sinat_35773915的博客

07-13

380

Scikit-learn 是一个用于机器学习的 Python 库，它提供了丰富的工具和算法，用于数据预处理、特征选择、模型训练和评估等任务。本文将介绍如何使用 Scikit-learn 进行机器学习，包括数据准备、特征工程、模型选择和评估等方面。

h5py快速入门指南

qq_41735740的博客

02-22

355

h5py是Python语言用来操作HDF5的模块。下面的文章主要介绍h5py的快速入门指南，翻译自h5py的官方文档：http://docs.h5py.org/en/latest/quick.html 。该翻译仅为个人学习h5py为目的，如有翻译不当之处，请速联系笔者或提供正确的翻译，非常感谢！一个HDF5文件就是一个容器，用于储存两类对象：datasets，类似于数组的数据集合；groups，...

使用scikit-learn的数据集

翻身咸鱼的博客

10-08

1945

你是否还在为机器学习没有经典的数据集苦苦寻找？本文将为你介绍scikit-learn中的数据集及基本用法。导入机器学习常用库numpy和matplot： sklearn有很多数据集，我们先导入scikit-learn的数据集库，再导入鸢尾花数据集：查看数据集里面有什么key，并且查看desc鸢尾花数据集的描述：查看鸢尾花具体数据查看数据集的shape和特征：取分类结果数据： ...

用Scikit-learn进行机器学习（五）：使用Scikit-learn进行KNN分析——KNN模型的提升KD-Tree的原理和KD-Tree癌症案例

12-22

构造方法4.案例分析4.1 树结构的建立4.2 最近领域的搜索4.2.1 查找点(2.1,3.1)4.2.2 查找点(2,4.5)5.总结KD-Tree案例癌症的数据建立模型 KNN算法的模型提升KD-Tree k最近邻法的实现是线性扫描（以穷举搜索的方式进行...

Python机器学习库scikit-learn安装与基本使用教程

09-20

对于scikit-learn来说，可以加载外部数据集，或者使用内置的样本数据集。数据归一化是机器学习中非常关键的一步，特别是对于使用基于距离计算的算法。scikit-learn提供了标准化和归一化的方法来处理特征缩放问题，...

精选资源

Python数据分析实验三(基于Scikit-Learn构建数据分析模型)数据集

05-16

本实验主要聚焦于如何使用Scikit-learn来构建数据分析模型，通过处理实际的数据集——winequality-red.csv，来帮助理解这一过程。首先，我们要了解`winequality-red.csv`数据集。这是一个关于红葡萄酒质量的数据集...

sklearn（Scikit-learn）中的数据集介绍

最新发布

老猿Python

07-13

1213

数据是人工智能工作的燃料，Scikit-learn内置了多种经典数据集，适用于机器学习算法的快速验证、教学和实验。本文详细介绍了每种数据集的功能、加载方法和归属类别，有助于大家快速掌握Scikit-learn的数据集情况，并在进行机器学习时熟练使用。

Scikit-Learn简介 —— 数据表示及评估器API

elma_tww的博客

02-27

687

《Python 数据科学手册》笔记一、Scikit-Learn的数据表示 1.Scikit-Learn基本的数据表示二维网格数据，每一行表示数据集中的每个样本，每一列表示相关特征（量化观测值）。例如鸢尾花数据集： 2.通常将上述除开最后一列的表格称为特征矩阵，记为变量X，它是维度为[n_samples,n_features]（即 [样本数，特征数]）的二维矩阵。而最后一列...

scikit-learn SVM使用和学习

图像处理博客

08-21

934

1. scikit 的配置本人配置环境是python3.5，配置教程参考官网安装教程（http://scikit-learn.org/stable/install.html），其实就是一句命令。但是注意需要已经安装numpy matplot scipy这三个库，为了安装这三个库，参考博客http://blog.youkuaiyun.com/kaierlong/article/details/505030

Scikit-learn方法使用总结

weixin_30588729的博客

03-06

270

在机器学习和数据挖掘的应用中，scikit-learn是一个功能强大的python包。在数据量不是过大的情况下，可以解决大部分问题。近期在学习使用scikit-learn的过程中，我自己也在补充着机器学习和数据挖掘的知识。以下是我做一个总结的笔记。后续会结合竞赛实操。 1 scikit-learn基础介绍 1.1 估计器（Estimator）常直接理解成分...

sklearn数据集用法

weixin_62077732的博客

01-12

1271

机器学习入门-sklearn

数据集划分，sklearn.datasets使用方式，数据集分隔，分类算法实例：鸢尾花数据集、手写数字数据集

ck784101777的博客

07-12

2462

目录 1.数据集划分 2.sklearn.datasets库 1_datasets.load_*() 2_datasets.fetch_*(data_home=None) 3_返回值类型 4_数据集分隔实例1:鸢尾花数据集 实例2：手写数字数据集 参考文章 1.数据集划分机器学习一般的数据集会划分为两个部分：训练数据：用于训练，构建模型测试数据：在检验模型时使用，用于评估模型是否有效训练集用于建立模型。验证集用来确定网络结构或者控制模型复杂程度的参数，而测试集则检验最终选

【机器学习】sklearn数据集的使用，数据集的获取和划分