一.scikit-learn安装
1.准备工作:
- Python (>= 2.6 or >= 3.3),
- Numpy (>= 1.6.1)
- Scipy (>= 0.9),
- Matplotlib(可选).
2.下载地址:
- python:https://www.python.org/downloads/
- Numpy+Scipy+Matplotlib+scikit-learn:http://www.lfd.uci.edu/~gohlke/pythonlibs/ (目录中文件名为:库名-库版本号-python版本-平台)
3.安装过程:
- 打开cmd,先输入python,进入编程模式则python已安装成功(exit()退出编程模式)
- 将目录切换至Numpy等的存储目录下,输入pip install .\文件名
- 安装成功显示successful installed 文件名
二.scikit-learn数据集
1.三类数据集函数:
- datasets.load_XXX():获取小规模数据集,数据包含在datasets中
- datasets.fetch_XXX():获取大规模数据集,数据需从网络上下载
- datasets.make_XXX():本地生成数据集
- data:特征数据数组,n_samples*n_features
- target:标签数组
- DESCR:数据描述
- feature_names:特征名
- target_names:标签名
- load_boston():房屋特征-房价,用于regression
- load_diabetes():糖尿病数据,用于 regression
- load_linnerud():Linnerud数据集,有多个标签,用于 multilabel regression
- load_iris():鸢尾花特征和类别,用于classification
- load_digits([n_class]):手写数字识别
- load_sample_images():载入图片数据集,共两张图
- load_sample_image(name):载入图片数据集中的一张图
- load_files(container_path, description=None, categories=None, load_content=True, shuffle=True, encoding=None, decode_error=’strict’, random_state=0):从本地目录获取文本数据,并根据二级目录做分类
1.3
数据集加载:
from sklearn import datasets
iris=datasets.load_iris()
x=iris.data
y=iris.target
print iris.feature_names
print iris.target_names
print x.shape,y.shape
3.预处理——库函数使用
4.分类器
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn import linear_model
iris=datasets.load_iris()
x=iris.data
y=iris.target
train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.3)
logistic=linear_model.LogisticRegression()
logistic.fit(train_x,train_y)
print logistic.score(test_x,test_y)
本文介绍了如何安装Python的scikit-learn库,包括依赖库Numpy, Scipy和Matplotlib的安装步骤。同时,详细阐述了scikit-learn的数据集加载方法,如load_XXX()、fetch_XXX()和make_XXX(),并列举了多个典型的数据集示例,如load_boston、load_digits等,以及预处理库函数的使用。"
8493251,50,Linux多线程服务端编程:muduo C++网络库实战,"['C++编程', '网络编程', '服务器开发', 'Linux开发', '多线程技术']
2961

被折叠的 条评论
为什么被折叠?



