
机器学习
quliulangle
路过的风景,回头已不在。
展开
-
03--机器学习之SVM(暂定)
from __future__ import print_functionfrom time import time #某些步骤需要计时,要用到这个模块import logging #打印程序进展方面的信息的模块import matplotlib.pyplot as plt #在程序最后把识别出的人脸绘制出来,看一下预测与实际的是否符合,要用到这个木块from sklearn.cross_原创 2017-07-29 18:25:45 · 347 阅读 · 0 评论 -
机器学习精简教程之八——二元分类效果的评估方法
本文转自:http://www.shareditor.com/blogshow/?blogId=59效果评估是模型选择和算法设计的重要步骤,知道评估优劣才能选择最佳的模型和算法,本节介绍一些有关评估方法的定义,凡是在统计或大数据领域都用得到 真阳性true positives, TP真阴性true negatives, TN假阳性转载 2017-08-02 14:42:40 · 1164 阅读 · 0 评论 -
02--机器学习之最近邻规则分类(KNN)
1.例子 实例,两个特征 对例子建模 举例: 上面这个图中,把小手指的这个豆子归为哪个类呢?knn的做法是看它的邻居们是什么类,然后把它归为和邻居一样的类2.算法详述 1)步骤 为了判断未知实例的类别,以所有已知类别的实例作为参照 选择参数K(一般都选择奇数) 计算未知实例与所有已知实例的距离 选择最近K个已知实例 根据少数服从多数的投票法则(majority-voti原创 2017-07-25 15:19:34 · 617 阅读 · 0 评论 -
01--机器学习之决策树
1.机器学习步骤框架 1)把数据集拆分为训练集和测试集 2)用训练集和训练集的特征向量来训练算法 3)用学习来的算法运用在测试集上来评估算法2.决策树(Decision Tree) 类似于流程图的树结构:其中,每个内部节点表示在一个属性上测试,每个分支代表一个属性输出。而每个树叶节点代表类或者类的分布。树的最顶层是根节点。 这张图原创 2017-07-25 12:06:00 · 340 阅读 · 0 评论 -
机器学习精简教程之九——用scikit-learn的网格搜索快速找到最优模型参数
本文转自:http://www.shareditor.com/blogshow/?blogId=60任何一种机器学习模型都附带很多参数,不同场景对应不同的最佳参数,手工尝试各种参数无疑浪费很多时间,scikit-learn帮我们实现了自动化,那就是网格搜索 。网格搜索这里的网格指的是不同参数不同取值交叉后形成的一个多维网格空间。比如参数a可以取1、2,参数b可以取3转载 2017-08-02 15:05:01 · 3658 阅读 · 0 评论 -
机器学习精简教程之七——用scikit-learn做特征提取
本文转自:http://www.shareditor.com/blogshow/?blogId=58现实世界中多数特征都不是连续变量,比如分类、文字、图像等,为了对非连续变量做特征表述,需要对这些特征做数学化表述,因此就用到了特征提取 (特征数字化)分类变量的特征提取比如城市作为一个特征,那么就是一系列散列的城市标记,这类特征我们用二进制编码来表示,是这个城市为转载 2017-08-02 11:36:06 · 695 阅读 · 0 评论 -
机器学习精简教程之六——用随机梯度下降法(SGD)做线性拟合
本文转自:http://www.shareditor.com/blogshow/?blogId=57scikit-learn的线性回归模型都是通过最小化成本函数来计算参数的,通过矩阵乘法和求逆运算来计算参数。当变量很多的时候计算量会非常大,因此我们改用梯度下降法,批量梯度下降法每次迭代都用所有样本,快速收敛但性能不高,随机梯度下降法每次用一个样本调整参数,逐渐逼近,效率高,本节我们来利转载 2017-08-01 23:10:27 · 2596 阅读 · 0 评论 -
机器学习精简教程之五——用scikit-learn求解多项式回归问题
本文转自:http://www.shareditor.com/blogshow/?blogId=56多元真实情况未必是线性的,有时需要增加指数项,也就是多项式回归,现实世界的曲线关系都是通过增加多项式实现的,本节介绍用scikit-learn解决多项式回归问题 住房价格样本样本 面积(平方米) 价格(万元)样本面积(平方米) 价格(万元)转载 2017-08-01 22:44:27 · 555 阅读 · 0 评论 -
机器学习精简教程之三——用scikit-learn求解多元线性回归问题
本文转自 http://www.shareditor.com/blogshow/?blogId=54一般情况下,一个因变量是和多个自变量有关的,比如一个商品的价格和原料价格、加工方法、上市时间、品牌价值等有关,也就是多元线性,本节介绍如何用scikit-learn解决多元线性回归问题 多元线性回归模型方程:Y=Xβ 求解多元线性回归问题就是求解β:因为X转载 2017-07-31 20:46:04 · 619 阅读 · 0 评论 -
机器学习精简教程之二——用scikit-learn求解一元线性回归问题
本文转自 http://www.shareditor.com/blogshow/?blogId=53一元线性回归是最简单的一种模型,但应用广泛,比如简单地预测商品价格、成本评估等,都可以用一元线性模型,本节主要讲解scikit-learn一元线性回归的使用以及作图说明 一元线性回归y=f(x)叫做一元函数,回归的意思就是根据已知数据复原某些值,线性回归(regres转载 2017-07-31 20:27:24 · 749 阅读 · 0 评论 -
机器学习精简教程之一——线性代数知识
本文转自:http://www.shareditor.com/blogshow/?blogId=1 数学是计算机技术的基础,线性代数是机器学习和深度学习的基础,了解数据知识最好的方法我觉得是理解概念,数学不只是上学时用来考试的,也是工作中必不可少的基础知识,实际上有很多有趣的数学门类在学校里学不到,有很多拓展类的数据能让我们发散思维,但掌握最基本的数学知识是前提,本文就以线性转载 2017-07-31 20:00:17 · 1572 阅读 · 0 评论 -
机器学习精简教程之十——用scikit-learn做聚类分析
本文转自:http://www.shareditor.com/blogshow?blogId=61线性回归和逻辑回归都是监督学习方法,聚类分析是非监督学习的一种,可以从一批数据集中探索信息,比如在社交网络数据中可以识别社区,在一堆菜谱中识别出菜系。本节介绍K-means聚类算法 。K-meansk是一个超参数,表示要聚类成多少类。K-means计算方法是重复转载 2017-08-02 22:42:24 · 1129 阅读 · 0 评论