
scikit-learn
文章平均质量分 68
初夏11
机器学习小白
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第一章 sklearn 介绍
机器学习问题分为监督学习和非监督学习,监督学习分为分类和回归。非监督学习包含一些聚类问题。scikit-learn 包含一些标准数据集,如 iris and digits datasets 用于classification , bostonhouse prices dataset 用于回归。1.2 加载数据集>>> from sklearn impo翻译 2016-04-08 10:57:37 · 587 阅读 · 0 评论 -
sklearn基础知识-准备阶段
6.标签特征二元化处理分类变量还有另一种方法,不需要通过OneHotEncoder,我们可以用LabelBinarizer。这是一个阈值与分类变量组合的方法。In [1]:from sklearn import datasets as diris = d.load_iris()target = iris.targetHow to do it...导入La转载 2016-04-11 19:42:19 · 4838 阅读 · 0 评论 -
基于scikit-learn(sklearn)做分类--3.优化--保存模型
上一章主要是讲了分类的过程,这一章主要是讲一些优化问题主要是对于训练的模型,要保存下结果,而不用重复的训练.import split_jieba2from sklearn.externals import joblibdef train(): tfidf_train_2 = tv.fit_transform(train_data);原创 2016-04-27 17:25:15 · 3932 阅读 · 0 评论 -
基于scikit-learn(sklearn)做分类--2.分类
上一步对文本进行了切词,下一步就是进行了分类://这里有个问题是,假如用predict_proba()这个函数的时候,可以得到一篇文章属于一个类并得到属于这个类的概率,返回一个列表,而predict()这个函数只能得到文本最应该属于的那个类,只能返回一个类。同时,对于给予中文类别,那么返回的可能是数字类别,现在没有找到中文类别和数字类进行对应的函数,于是直接自己把类别和数字进行对应,返回的类别原创 2016-04-27 17:17:31 · 4868 阅读 · 0 评论 -
基于sklearn的例子-准备阶段
Getting readyscikit-learn的内置数据库在datasets模块里。用如下命令导入:In [1]:from sklearn import datasetsimport numpy as np在IPython里面运行datasets.*?就会看到data转载 2016-04-11 16:13:37 · 3429 阅读 · 0 评论 -
第四章 监督学习
4.1 Generalized Linear Models 广义线性模型yˆ(w,x)=w0+w1x1+...+wpxp w是权重线性回归就是找到 w = (w1 , ..., wp ) 使平方差最小>>>fromsklearnimportlinear_model>>>clf =linear翻译 2016-04-11 16:02:30 · 440 阅读 · 0 评论 -
第三章:WORKING WITH TEXT DATA
这一章是完整的进行一个数据挖掘的过程:在这一章中,学习1,如何加载一个文件组件和分类,2,抽取特征向量,3,训练一个线性模型,4使用网格搜索调优。3.2 加载一个20新闻组数据20,000 newsgroup documents, >>>categories =['alt.atheism','soc.re翻译 2016-04-11 13:38:42 · 561 阅读 · 0 评论 -
第二章 scikit-learn 统计学习中数据处理
2.1 统计学习 关于统计量和配置2.11 数据集 >>>fromsklearnimportdatasets>>>iris =datasets.load_iris()>>>data =iris.data>>>data.shape 显示数据量和特征维度这个是二维度数组作为特征的情况。>>>翻译 2016-04-10 00:27:41 · 1018 阅读 · 0 评论 -
scikit-learn介绍
上一章主要介绍了几个python 常用的机器学习包。这一章主要介绍scikit-learn相关的内容,这个机器学习包官方文档介绍比较详细,不过都是英文版的介绍。下面要具体的分几章进行介绍。第1章,机器学习基础,将机器学习定义成一种通过学习经验改善工作效果的程序研究与设计过程。第2章,线性回归,介绍线性回归模型,一种解释变量和模型参数与连续的响应变量相关的模型。通过最小二乘法求解模型参数获得转载 2016-04-07 23:17:09 · 528 阅读 · 0 评论 -
python—解决“Unable to find vcvarsall.bat”错误
[python安装目录]Lib/distutils/msvc9compiler.py修改MSVCCompiler函数:vc_env = query_vcvarsall(VERSION, plat_spec)为:vc_env = query_vcvarsall(12.0, plat_spec)12.0改成你安装的msvs对应的版本号补充:m翻译 2016-08-11 00:14:12 · 433 阅读 · 0 评论