Sklearn机器学习基础（day01基本数据处理）

最新推荐文章于 2024-11-22 13:40:57 发布

Huterox

最新推荐文章于 2024-11-22 13:40:57 发布

阅读量1.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：笔记人工智能文章标签：机器学习 sklearn python

本文链接：https://blog.youkuaiyun.com/FUTEROX/article/details/121345918

人工智能同时被 2 个专栏收录

58 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

笔记

66 篇文章

订阅专栏

本文介绍了Sklearn库在机器学习中用于数据预处理和特征提取的方法，包括字典特征提取、文本处理（One-Hot编码、中文文本处理、TF-IDF）、数据预处理（归一化、标准化）、降维（特征选择、PCA）。通过实例展示了如何使用DictVectorizer、jieba分词和TF-IDF等工具，并提供了数据集链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

环境
数据集
特征提取
数据预处理
- 归一化
- 标准化
降维
小结

环境

python 3.7

sklearn

numpy

scipy

pip3 install numpy
pip3 install scipy
pip3 install sklearn

（本文为笔记整理）

数据集

sklearn 自带一些常用的数据集帮助我们进行相关的测试。

sklearn.datasets

load_*  获取小规模数据集
fetch_* 获取大规模数据集

sklearn小数据集
sklearn.datasets.load_iris()
    
    
sklearn大数据集   sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)

这里注意的是获取大数据集其实是从对应的网站下载的，data_home 是指那个对应的下载保持目录（有默认的） sub

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Huterox

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

Sklearn机器学习基础（day02基础入门篇）

`or 1 or 不正经の泡泡

11-16

1403

文章目录基本算法使用（Sklearn)算子API调用分步曲数据分析分步曲分类算法KNN 算法网格优化KNN 案例（预测facebook签到位置）数据清洗KNN处理预测完整代码朴素贝叶斯算法决策树案例可视化决策树随机森林回归与聚类算法线性回归正规方程梯度下降岭回归逻辑回归与二分类分类的评估K-means 无监督聚类算法模型加载与保存总结导图（大致）基本算法使用（Sklearn) 到目前这一步涉及到了具体的算法使用，也就是调用 sklearn 的一些基本集成算法，那么关于 sklearn 的算法调用可以有一

机器学习 Sklearn Day2

birdooo的博客

02-21

1257

随机森林 1 概述 1.1 集成算法概述集成学习（ensemblelearning）是时下非常流行的机器学习算法，它本身不是一个单独的机器学习算法，而是通过在数据上构建多个模型，集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影，在现实中集成学习也有相当大的作用，它可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞赛中，随机森林，梯度提升树（GBDT），Xgboost等集成算法的身影也随处可见，可见其效果之好.

参与评论您还未登录，请先登录后发表或查看评论

Sklearn 中的可用数据集

pythonandaiot的博客

12-31

4409

sklearn 中的数据集 Scikit-learn 提供了大量用于测试学习算法的数据集。它们有三种口味：打包数据：这些小数据集与 scikit-learn 安装一起打包，可以使用 scikit-learn 中的工具下载sklearn.datasets.load_* 可下载的数据：这些较大的数据集可供下载，scikit-learn 包含简化此过程的工具。这些工具可以在sklearn.datasets.fetch_* 生成的数据：有几个数据集是从基于随机种子的模型生成的。这些可以在sklearn

python生成10000个样本数据集_sklearn自带的数据集以及生成数据

weixin_39571938的博客

11-30

2031

1、自带的数据集sklearn自动了下面几种数据用于算法练习。load_boston([return_X_y]) 加载波士顿房价数据；用于回归问题load_iris([return_X_y]) 加载iris 数据集；用于分类问题load_diabetes([return_X_y]) 加载糖尿病数据集；用于回归问题load_digits([n_class, return_X_y]) 加载手写字符集；...

sklearn——数据集

Snfiltration

08-15

2918

sklearn——数据集主要介绍sklearn中的数据集以及如何从帮助文档中导入数据集，查看数据集

【机器学习】sklearn数据集的使用，数据集的获取和划分

wangyuxiang946的博客

08-17

1万+

机器学习是人工智能的一个实现途径，可以从「数据」中自动分析获得「模型」，并利用模型对未知数据进行「预测」。简单来说就是从历史数据中总结规律，用来解决新出现的问题。从数据中总结规律，需要提供一个「数据集」，数据集由「特征值」和「目标值」两部分组成。

【sklearn】dataset模块（1）—— 小型数据集、远程数据集

佚失的诗篇

04-25

4039

本文介绍sklearn.datasets模块本文是从jupyter文档转换来的，某个代码块不一定能直接复制运行，代码输出结果统一以注释形式添加在代码最后文章目录0. 前置0.1 关于Sklearn0.2 Bunch类型1. sklearn.datasets模块1.1 玩具数据集1.1.1 波士顿房价数据集（回归）乳癌数据集（二分类）糖尿病数据集（回归）手写字体数据集（多分类）鸢尾花数据集（多分类）红酒数据集（多分类）健身数据集（回归）远程加载数据集 0. 前置 0.1 关于Sklearn Skl.

机器学习Sklearn Day6

birdooo的博客

03-03

1003

2.3 梯度下降：重要参数max_iter 逻辑回归的数学目的是求解能够让模型最优化，拟合程度最好的参数θ的值，即求解能够让损失函数J（θ）最小化的θ值。对于二元逻辑回归来说，有多种方法可以用来求解参数θ，最常见的有梯度下降法(GradientDescent)，坐标下降法(Coordinate Descent)，牛顿法(Newton-Raphson method)等，其中又以梯度下降法最为著名。每种方法都涉及复杂的数学原理，但这些计算在执行的任务其实是类似的。 2.3.1 梯度下降求解逻...

机器学习Sklearn Day4

birdooo的博客

02-27

837

04 sklearn中的降维算法PCA和SVD 1概述从什么叫“维度”说开来 sklearn中的降维算法 2PCA与SVD 2.1降维究竟是怎样实现？ 2.2 重要参数n_components 2.1.1 迷你案例：高维数据的可视化 2.1.2 最大似然估计自选超参数 2.1.3 按信息量占比选超参数 2.3 PCA中的SVD 2.3.1 PCA中的SVD哪里来？ 2.3.2 重要参数svd_solver与 random_state 2.3.3 重要属性compon...

sklearn数据预处理

最新发布

2301_78648299的博客

11-22

974

当数据(x)按照最⼩值中⼼化后，再按极差（最⼤值 - 最⼩值）缩放，数据移动了最⼩值个单位，并且会被收敛到[0,1]之间，⽽这个过程，就叫做数据归⼀化x是原始特征值。min(x) 是特征的最⼩值。max(x) 是特征的最⼤值。x' 是缩放后的特征值。在sklearn当中，我们使⽤preprocessing.MinMaxScaler来实现这个功能。MinMaxScaler有⼀个重要参数，feature_range，控制我们希望把数据压缩到的范围，默认是[0,1]。

sklearn提供的自带的数据集

weixin_34128839的博客

06-10

2897

sklearn 的数据集有好多个种自带的小数据集（packaged dataset）：sklearn.datasets.load_<name> 可在线下载的数据集（Downloaded Dataset）：sklearn.datasets.fetch_<name> 计算机生成的数据集（Generated Dataset）：sklearn.datasets.make_&lt...

python sklearn下载-Python的Sklearn库中的数据集

weixin_39622905的博客

11-11

2570

一、Sklearn介绍scikit-learn是Python语言开发的机器学习库，一般简称为sklearn，目前算是通用机器学习算法库中实现得比较完善的库了。其完善之处不仅在于实现的算法多，还包括大量详尽的文档和示例。其文档写得通俗易懂，完全可以当成机器学习的教程来学习。二、Sklearn数据集种类sklearn 的数据集有好多个种自带的小数据集（packaged dataset）：sklearn...

Sklearn提供的常用数据集

shiguanggege的博客

02-14

1万+

一、自带的小数据集（packageddataset）：sklearn.datasets.load_ 鸢尾花数据集：load_iris（）：用于分类任务的数据集手写数字数据集：load_digits（）:用于分类任务或者降维任务的数据集乳腺癌数据集load-barest-cancer（）：简单经典的用于二分类任务的数据集糖尿病数据集：load-diabetes（）：经典的用于回归认为的数据集，值得注意的是，这10个特征中的每个特征都已经被处理成0均值，方差归

sklearn数据集的使用

weixin_43392812的博客

04-01

572

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split def datasets_demo(): '''sklearn数据集的使用''' # 获取数据集 iris = load_iris() print(type(iris)) print('鸢尾花数据集：\n', iris) print('查看数据集描述：\n', iris['.

sklearn进行数据分析

qq_30505673的博客

02-27

1778

波士顿房价使用线性回归进行预测 from sklearn import datasets #调用线性回归函数 from sklearn.linear_model import LinearRegression #导入数据集 #这里将全部数据用于训练，并没有对数据进行划分，上例中 #将数据划分为训练和测试数据，后面会讲到交叉验证 loaded_data = datasets.load_boston...

sklearn基础及数据处理

Jmayday

06-17

1111

sklearn 库整合了多种机器学习算法，可在数据分析过程快速建立模型。通过 pandas 库虽然已经提供数据合并、清洗、标准化（离差标准化、标准差标准化、小数定标标准化），为构建机器学习模型对数据特征还需处理更多预处操作，因此 sklearn 将相关预处理功能封装为统一接口 --- 转换器（ Transformer ）。使用 sklearn 转换器能够实现对传入的 NumPy 数组进行标准化处理、二值化、 PCA 将为等操作。说到转换数据，实际上 padas 库也有提供了哑变量处理类别数...

【机器学习&深度学习】05 sklearn简单基础

m0_52923241的博客

05-06

1150

sklearn简单基础1 介绍2 分类2.1 估计器2.2 转化器3 基于 MNIST 数据集的手写数字图像识别 1 介绍 scikit-learn是基于 Python 语言的机器学习工具包。有六大功能模块分别是分类、回归、聚类、数据降维、模型选择和数据处理。 2 分类将此模块函数进行分类：估计器（Estimatior）和转化器（Transformer） 2.1 估计器分类（Classification）：识别样本属于哪个类别，常用算法有 SVM（支持向量机）、nearest neighbors（最近邻

【数据预处理】sklearn实现数据预处理（归一化、标准化）

在热爱技术的路上一直前行。

05-16

6940

1. 为什么需要归一化/标准化？原因：特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法无法学习到其他的特征，即无量纲化。 2. 归一化 2.1 定义通过对原始数据进行变换把数据映射到(默认为[0,1])之间 2.2 公式作用于每一列，max为一列的最大值，min为一列的最小值,那么X’’为最终结果，mx，mi分别为指定区间值默认mx为1,mi为0 2.3 sklearn中的Minmax归一化API sklearn.prepro

Py之scikit-learn：机器学习sklearn库的简介、六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类)、安装、使用方法(实际问题中如何选择最合适的机器学习算法)之详细攻略