python之scikit-learn的应用

最新推荐文章于 2025-10-31 21:58:42 发布

原创最新推荐文章于 2025-10-31 21:58:42 发布 · 475 阅读

1 ·

CC 4.0 BY-SA版权

模式识别专栏收录该内容

2 篇文章

订阅专栏

本文介绍了如何安装Python的scikit-learn库，包括依赖库Numpy, Scipy和Matplotlib的安装步骤。同时，详细阐述了scikit-learn的数据集加载方法，如load_XXX()、fetch_XXX()和make_XXX()，并列举了多个典型的数据集示例，如load_boston、load_digits等，以及预处理库函数的使用。" 8493251,50,Linux多线程服务端编程：muduo C++网络库实战,"['C++编程', '网络编程', '服务器开发', 'Linux开发', '多线程技术']

一.scikit-learn安装

1.准备工作：

Python (>= 2.6 or >= 3.3),
Numpy (>= 1.6.1)
Scipy (>= 0.9),
Matplotlib（可选）.

2.下载地址：

python:https://www.python.org/downloads/
Numpy+Scipy+Matplotlib+scikit-learn:http://www.lfd.uci.edu/~gohlke/pythonlibs/ （目录中文件名为：库名-库版本号-python版本-平台）

3.安装过程：

打开cmd，先输入python，进入编程模式则python已安装成功（exit()退出编程模式）
将目录切换至Numpy等的存储目录下，输入pip install .\文件名
安装成功显示successful installed 文件名

二.scikit-learn数据集

1.三类数据集函数：

datasets.load_XXX()：获取小规模数据集，数据包含在datasets中
datasets.fetch_XXX()：获取大规模数据集，数据需从网络上下载
datasets.make_XXX()：本地生成数据集

1.1 datasets.load_XXX()中数据集格式：

data：特征数据数组，n_samples*n_features
target：标签数组
DESCR：数据描述
feature_names：特征名
target_names：标签名

1.2 dataset.load_XXX()中的数据集：

load_boston()：房屋特征-房价，用于regression
load_diabetes()：糖尿病数据，用于 regression
load_linnerud()：Linnerud数据集，有多个标签，用于 multilabel regression
load_iris()：鸢尾花特征和类别，用于classification
load_digits([n_class])：手写数字识别
load_sample_images()：载入图片数据集，共两张图
load_sample_image(name)：载入图片数据集中的一张图
load_files(container_path, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error=’strict’, random_state=0)：从本地目录获取文本数据，并根据二级目录做分类

1.3 数据集加载：

from sklearn import datasets

iris=datasets.load_iris()
x=iris.data
y=iris.target

print iris.feature_names

print iris.target_names

print x.shape,y.shape

3.预处理——库函数使用

4.分类器

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn import linear_model

iris=datasets.load_iris()
x=iris.data
y=iris.target
train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.3)

logistic=linear_model.LogisticRegression()
logistic.fit(train_x,train_y)
print logistic.score(test_x,test_y)