
机器学习
文章平均质量分 68
CV_ML_DP
赏cv,ml,dp之美,创其价值
展开
-
【机器学习】【线性回归】梯度下降算法核心思想剖析和数学公式推导
假设函数训练数据集的假设函数(hypothesis function),又称模型函数: 代价函数评估假设函数精确度、拟合度的代价函数(cost function) 代价函数的核心功能:代价函数的函数值用来评估假设函数的精确度、拟合度。精确度、拟合度的比较对象是我们提供的训练数据集。如果有一组(θ0,θ1,……,θn)使得代价函数取得最小值,则将这组(θ_0,θ1,……,θn)对应的假设...原创 2018-03-14 19:23:03 · 6939 阅读 · 2 评论 -
【机器学习】【线性回归】梯度下降的三种方式(BGD+SGD+MSGD)以及三种调优方法(加快收敛速度)
1.梯度下降算法梯度下降算法的核心思路和公式推导,可以详见前面的文章:梯度下降算法的核心思路和公式推导如果代价函数是凸函数,用梯度下降算法一定可以求得最优解。2.梯度下降的三种方式在ML中,梯度下降有三种方式:1)批量梯度下降(Batch Gradient Descent,BGD)2)随机梯度下降(Stochastic Gradient Descent,SGD)3)小批量梯度下降(Mini-Ba...原创 2018-03-14 23:26:28 · 17941 阅读 · 0 评论 -
【机器学习】【线性回归】用最小二乘法求解线性回归的最优θ
注:用简单线性回归来讲解最小二乘法的应用,简单线性回归概念可看以前内容:线性回归基本概念详解最小二乘法 最小二乘法是一种数学优化技术。当给了特征变量后,使用最小二乘法可以方便地求出未知的输出数据集,并使得这些输出数据集和实际数据集之间的误差的平方和最小。简单线性回归、假设函数线性回归中的最小二乘法算法 最小二乘法就是使得h(xi)算出的估计值y与训练用例数据集(xi, yi)中的观察值...原创 2018-03-14 23:32:40 · 1960 阅读 · 0 评论 -
【机器学习】【线性回归】用矩阵方式求解线性回归的最优θ
假设函数的代数表示训练数据集的假设函数(hypothesis function),又称模型函数: 假设函数的矩阵表示代价函数的代数表示 代价函数的矩阵表示下面推导线性回归中代价函数的矩阵表示公式代价函数的矩阵求解最优θ经过上面求解得到最优θ为: (end)...原创 2018-03-14 23:33:50 · 7762 阅读 · 3 评论 -
【机器学习】最大似然估计的原理、以及求解步骤的详解
最大似然估计简介最大似然估计是一种统计方法,通过最大似然估计可以求一个样本集的概率密度函数的分布参数θ,从而求出样本集对应分布的概率密度函数。举例子来理解的话就是:已知:一个概率分布D已知:概率分布D的一个样本集X,样本集大小为n已知:次概率分布D的概率密度函数f=f(x; θ),其中θ是一个分布参数,θ未知~ (分布参数不懂得请百度百科~,分布参数有起码3种类型)那么问题来了...原创 2018-03-15 23:27:28 · 33697 阅读 · 0 评论 -
【机器学习】欠拟合、过拟合及其解决思路
why?在训练之前没人能得知训练数据集的"复杂程度"。在线性回归中,就是说对于一个训练数据集,在训练之前,我们不知道使用几维参数才能得到拟合度最优的假设函数,即多项式有多少项不确定。示例回归:左图:欠拟合中间:拟合右图:过拟合分类:左图:欠拟合中间:拟合右图:过拟合缺点过拟合:训练效果好,但是预测未知数据时效果差欠拟合:训练已知数据和预测未知数据都差解决方法1.调整假设函数的参数维度,直到得到最优...原创 2018-03-15 23:29:14 · 776 阅读 · 0 评论 -
【机器学习】【逻辑回归】最大似然估计的推导和求解步骤和梯度上升算法求解
伯努利分布如果随机变量X∈{0, 1},并且相应的概率满足: P(X=1) = p,0<p<1 P(X=0) = 1 - p则称随机变量X服从参数为p的伯努利分布。则随机变量X的概率密度函数为:逻辑回归 逻辑回归却不是回归算法而是一个分类算法~,线性回归是一个回归算法。逻辑回归的样本数据集是一个离散分布的样本集,逻辑回归的模型值不再是连续值,而是{0, 1}这样的离散...原创 2018-03-15 23:30:55 · 16104 阅读 · 1 评论 -
【机器学习】【线性回归】最小二乘法和梯度下降算法的python实现
参考https://www.cnblogs.com/NanShan2016/p/5493429.html1.算法回顾1.1最小二乘法回顾线性回归的最小二乘法可以详见博客:click me1.2矩阵方式求解最小二乘法回归使用矩阵方式通过最小二乘法求线性回归的过程详见博客:click me1.3梯度下降算法回顾线性回归的梯度下降算法可以详见博客:click me2.最小二乘法求线性回归的最优θ自己动手...原创 2018-03-15 23:31:45 · 661 阅读 · 0 评论 -
【机器学习】文本数据的向量化(TF-IDF)---样本集实例讲解+python实现
1.文本数据的向量化1.1名词解释CF:文档集的频率,是指词在文档集中出现的次数DF:文档频率,是指出现词的文档数IDF:逆文档频率,idf = log(N/(1+df)),N为所有文档的数目,为了兼容df=0情况,将分母弄成1+df。TF:词在文档中的频率TF-IDF:TF-IDF= TF*IDF1.2文本数据样本集为了讲解文本数据的向量化,假设我们有4个文本,所有文本一共有6个不同的词,如下所...原创 2018-03-15 23:32:50 · 14160 阅读 · 1 评论 -
【计算机视觉】【图像处理中的数学】数学点汇总
二项分布(Binomial distribution) 伯努利(Bernoulli)分布,又称两点分布 http://blog.youkuaiyun.com/baimafujinji/article/details/6469364原创 2018-03-03 14:00:01 · 467 阅读 · 0 评论 -
【机器学习】汇总详解:矩阵的迹以及迹对矩阵求导
矩阵的迹概念 矩阵的迹 就是 矩阵的主对角线上所有元素的和。 矩阵A的迹,记作tr(A),可知tra(A)=∑aii,1<=i<=n。定理:tr(AB) = tr(BA)证明定理:tr(ABC) = tr(CAB) = tr(BCA) 这个是tr(AB)=tr(BA)的推广定理,很容易证明。 根据定理tr(AB)=tr(BA)可知: ...原创 2018-03-17 19:59:27 · 37463 阅读 · 6 评论 -
【keras】python mnist_mlp.py下载数据集mnist.npz失败的解决
环境 环境:ubuntu 16.04 LTS(ubuntu-16.04.4-server-amd64) 已安装:tensorflow, theano, keras, anaconda要解决的问题 #python keras-master/examples/mnist_mlp.py 因下载数据集失败而终止运行keras开发包下载 1)浏览器直接下载,keras-master.z...原创 2018-03-11 22:13:21 · 5734 阅读 · 0 评论 -
【keras】网络资源列表-追加更新
keras中文文档网址:http://keras-cn.readthedocs.io/en/latest/keras开发包git:https://github.com/keras-team/keras(end)原创 2018-03-11 23:51:56 · 385 阅读 · 0 评论 -
【机器学习】【逻辑回归】Python实现逻辑回归
1.逻辑回归python实现# -*- coding: utf-8 -*-"""@author: 蔚蓝的天空Tom"""import numpy as npimport osimport matplotlib.pyplot as pltfrom sklearn.datasets import make_blobs#global variablepath = r'D:\tom\...原创 2018-03-17 22:50:36 · 734 阅读 · 0 评论 -
【机器学习】【KNN】线性扫描算法,详解+python代码实现
1.KNN算法讲解KNN算法,K最近邻分类算法(K-NearestNeighbor)是数据挖掘分类技术中最简单的方法之一。KNN的分类结果表明k个最近的邻居可以来代表测试样本数据的分类类型。请思考一个问题,给二维坐标中点进行贴标签: 已经有被贴了标签“A”的点:(4 35),(5 38), (6 30) 已知有被贴了标签“B”的点:(10 12),(11 15),(12 10) ...原创 2018-03-17 23:50:36 · 1375 阅读 · 0 评论 -
【机器学习】【数学】机器学习涉及的数学知识
简单总结:机器学习涉及的数学知识有线性代数,概率论和统计学,多变量微积分,算法和复杂优化,以及其他等。原文:https://www.ibm.com/developerworks/community/blogs/3302cc3b-074e-44da-90b1-5055f1dc0d9c/entry/the-mathematics-of-machine-learning?lang=en_us 在过...转载 2018-02-25 22:50:22 · 3236 阅读 · 0 评论 -
【机器学习】【线性回归】scipy最小二乘法求解线性回归的最优解
1拟合h(x) = w0 + w1*x话不多说,直接上code1.1代码# -*- coding: utf-8 -*-"""@author: 蔚蓝的天空TOMTalk is cheap, show me the codeAim:最小二乘法库函数leastsq使用示例详解"""import numpy as npimport matplotlib.pyplot as pltfrom ...原创 2018-03-23 10:41:01 · 7128 阅读 · 0 评论 -
【机器学习】【逻辑回归】Logistic函数/Sigmoid函数的详细公式推导
sigmoid函数的数学公式 sigmoid函数的因变量x取值范围是-∞到+∞,(-∞,+∞),但是sigmoid函数的值域是(0, 1)。不管x取什么值其对应的sigmoid函数值一定会落到(0,1)范围内~~~漂亮的logistic 曲线sigmoid函数对应的图形就是logistic曲线,logistic曲线对应的函数就是sigmoid函数。下面我们用通过spy...原创 2018-03-19 17:11:45 · 33056 阅读 · 5 评论 -
【机器学习】【KNN】线性扫描算法,python实现识别手写数字的系统
1.样本集资源1.1样本集所在目录情况1.2训练样本集所在目录情况训练样本集中每个文件命名规则介绍:x_y.txtx是文件中手写数字的真实数值y是第y个手写数字值为x的样本集文件1.3测试样本集所在目录情况测试样本集中每个文件命名规则介绍:x_y.txtx是文件中手写数字的真实数值y是第y个手写数字值为x的样本集文件1.4样本集下载链接https://download.youkuaiyun.com/downl...原创 2018-03-19 22:05:15 · 423 阅读 · 0 评论 -
【机器学习】梯度上升算法核心思想剖析和数学公式推导
2018.03.20完成此博客。原创 2018-03-19 22:14:01 · 1361 阅读 · 0 评论 -
【Keras】Linux一个shell脚本安装python、keras、tensorflow、anaconda等~
本文提供一个shell脚本,在Linux环境下通过执行此shell脚本可以一次自动安装python、keras、tensorflow、anaconda、pyenv、curl、git等等解决的问题 在linux server环境下安装keras等软件时,人肉输入一个一个apt install命令安装每个软件的话,会很费时费精力。可以通过文中提供的shell脚本,执行一次脚本安装keras等所有...原创 2018-03-13 22:12:24 · 2278 阅读 · 0 评论 -
【机器学习】【逻辑回归】代价函数为什么用最大似然估计而不是最小二乘法?
为了搞清楚为什么,就要先搞清楚,逻辑回归的对数似然函数和最小二乘法函数分别是什么。逻辑回归的对数似然函数公式逻辑回归的最小二乘法的代价函数公式可以证明逻辑回归的最小二乘法的代价函数不是关于分布参数θ的凸函数,求解过程中,会得到局部最优,不容易求解全局最优θ。逻辑回归的最小二乘法的代价函数如下所示:答1:证明LR的对数似然函数是凸函数关于逻辑回归的对数似然函数的基本概念和详细求解流程可以会看以前博客...原创 2018-03-20 09:28:08 · 7129 阅读 · 3 评论 -
【Keras】数据集以及开发包-百度网盘链接~~~~~~
解决问题 1)有时候程序执行时才从网上下载数据集(比如mnist.npz)会很慢,影响程序执行速度,又浪费个人时间 2)有时候从网上下载数据集时,由于资源被墙了,导致下载失败,所有有必要搞个本地数据集供训练 所以在这里提供下百度网盘下载链接,谁用谁方便直接下载~数据集网盘链接1)keras-master.zip(keras开发包) 链接:https://p...原创 2018-03-13 22:57:54 · 3981 阅读 · 1 评论 -
【机器学习】【线性回归】基本概念详解
训练用例(xi,yi),此元祖成为训练用例数据集训练数据集(xi,yi),i=1,2,……m,此m个训练用例成为训练数据集输入数据集用X来表示输入数据集输出数据集用y来表述输出数据集机器学习目标机器学习的目标是,给定一个训练数据集,训练一个函数h:x->y,使得h(x)是一个好的预测函数,“好”的意思是给一个xi,通过h(x)计算出来的y,非常接近实际的yi,即y与yi的偏差最小,即拟合度最...原创 2018-03-13 23:13:33 · 2813 阅读 · 0 评论 -
【机器学习】汇总详解:矩阵基本知识以及矩阵求导
1.矩阵的基本概念1.1矩阵的迹(matrix trace)存在方阵A=(aij)n×n,其主对角线上的所有元素的和,称为此方阵的迹,记作tr(A)tr(A)=a11+a22+……+anntr(A)=∑aii,i=1,....,n注:n阶方阵A,tr(A)也等于方阵A的所有特征值的和1.2矩阵的代数余子式(alebraic cofactor) 1.3伴随矩阵A*(adjoint matrix...原创 2018-03-13 23:15:02 · 9331 阅读 · 0 评论 -
【keras】vs2015pro+python+keras+tensorflow+anaconda的安装步骤
保证安装成功,可以在anaconda中使用python、keras等,enjoy it~注意几点:1)请使用vs2015pro,不要使用vs2017.以前使用vs2017安装时,vs2017安装后,再安装anaconda和python时出现过很多兼容性问题等,建议使用vs2015pro。2)安装vs2015时,会提醒使用IE10最佳,所以先把IE10安装起来然后再安装vs2015pro,可以下面软...原创 2018-03-13 23:20:56 · 1454 阅读 · 0 评论 -
【机器学习】【支持向量机】支持向量机SVM算法的python实现
20180330完成此博客原创 2018-03-29 23:24:19 · 370 阅读 · 1 评论 -
【机器学习】【决策树】算法详解
20180321完成此博客。原创 2018-03-20 21:39:36 · 342 阅读 · 0 评论 -
【机器学习】【决策树】算法之python实现
20180321完成此博客。原创 2018-03-20 21:43:26 · 286 阅读 · 0 评论 -
【机器学习】【Scikit-learn】Scikit-learn使用手册汇总
参考文档:http://blog.sina.com.cn/s/blog_af9653880102wv7k.html20180407完成此博客原创 2018-04-07 21:48:00 · 1005 阅读 · 0 评论 -
【机器学习】【Numpy】函数向量化运算的多种方法function/lambda + numpy.frompyfunc()/map和numpy.vectorize()
此文章的需求来自:逻辑回归的算法实现,numpy.frompyfunc()函数的使用1.什么是函数的向量化1.1函数的一般使用我们有如下的一个自定义函数def magic(a, b): if a > b: return a + b else: return a - b使用时我们只能单变量传入调用a = 1b = 2ret = mag...原创 2018-03-26 15:18:27 · 7156 阅读 · 3 评论 -
【机器学习】【决策树】用样本集详解并计算:信息+香农熵+条件熵+信息增益+信息增益比+决策树的最优根节点+经验熵+经验条件熵
首先信息、香农熵、条件熵、信息增益都是信息论里面的概念。本文章的讲解和代码实现(除了条件熵和信息增益)都基于两个随机变量的样本空空间,样本空间X={x1, x2}的概率分布如下所示:p(x1) = p1, 0< p1 <1p(x2) = p2, 0< p2 <1p1 + p2 = 11.信息1.1信息函数信息是用来消除随机不确定性的东西,信息的公式如下所示I(x) = ...原创 2018-04-01 11:31:42 · 5370 阅读 · 2 评论 -
【机器学习】【样本数据生成器】聚类算法中使用make_blobs聚类数据生成器(sklearn.datasets.make_blobs)
官网manual详见:sklearn.datasets.make_blobsklearn.datasets.make_blobs( n_samples=100, #样本总数 n_features=2, #每个样本的特征值总数 center...原创 2018-03-26 17:01:21 · 2075 阅读 · 0 评论 -
【机器学习】【决策树】用样本集详解:条件熵H(Y|X)的计算过程
通过此文档如果还不清楚条件熵H(Y|X)的计算过程,请毫不留情地把搬砖扔过来,我愿意接招。此文章文档下载地址:https://download.youkuaiyun.com/download/u012421852/103221781. 样本数据集样本集简介: 样本集有8个example样本 每个样本有3个特征(身高,房子,性格),1个分类结果refuse或者agree 身高取值范围={hig...原创 2018-04-02 11:25:27 · 4470 阅读 · 2 评论 -
【机器学习】【决策树】自己动手用Python实现一个类:in样本集,out特征分布、概率密度、熵、条件熵、信息增益、信息增益比
看懂代码的前提需要理解样本空间分布,概率密度,香农熵,条件熵,信息增益等概念,否则代码看不懂,不理解的可以看以前博客~1.说明1.1要实现的类class CSamplesTool(object)1.2输入的样本集输入的样本集,样例由下面的方法提供:def create_samples(): ''' 提供训练样本集 每个example由多个特征值+1个分类标签值组成...原创 2018-04-02 16:21:50 · 659 阅读 · 1 评论 -
【机器学习】【决策树】自己动手用python实现样本集的裁剪,新样本集以供计算子决策树的最优根节点
代码.py文件下载地址:https://download.youkuaiyun.com/download/u012421852/10323938如何设置免费下载,每次最少需要设置2C币下载,不是故意不免费提供.py文件,ε=(´ο`*)))唉1.需求说明在生成样本集的决策树过程中,在得到树根节点后,后面还需要选择子树的根节点,这时候不能使用前面的样本集了,需要将已选作根节点的样本特征从样本集中裁减掉,为了便于...原创 2018-04-02 23:32:29 · 560 阅读 · 0 评论 -
【机器学习】【决策树】有了决策树的字典结构后 ,如何用python绘制决策树?
1.需求说明求出决策树的字典存储形式数据后,绘制出决策树的图形,则会更形象认识和了解其决策树。比如,有决策树的字典结构如下所示:tree_dict = {'house?': {'hourse_no': {'working?': {'work_no': 'refuse', 'work_yes': 'agree'}}, 'hourse_yes': 'agree'}}要绘制出对应的如下决策树:本章代码就...原创 2018-04-03 12:22:47 · 4036 阅读 · 4 评论 -
【机器学习】【决策树】决策树算法的核心思路详解
20180328完成此博客。原创 2018-03-28 17:24:28 · 602 阅读 · 0 评论 -
【机器学习】【决策树】ID3算法,Python代码实现生成决策树的系统
除了绘制树部分代码有借鉴,其他代码都是自己亲手完成,历时2天时间,过程稍微痛苦,当看到运行结果出现在面前时,一切都是高兴的,感觉过程也变得美妙了~由于更喜欢C++编程,所以使用python类来完成~~~~,个人感觉面向对象更容易和更适合实现生成决策树的软件系统由于是代码的第一稿,还没有精简,比较长,所以先贴出来运行结果,再给出代码此软件系统:可以指定决策树的深度1.使用的样本集 ''''' ...原创 2018-03-28 17:25:25 · 553 阅读 · 0 评论 -
【机器学习】【K-Means】算法详解+样本集实例讲解
1.k-means算法步骤详解使用2维的样本进行讲解,用x-y坐标系表示就是sample=(x, y),比如sample=(1,3)。其他n维度样本的k-means算法步骤也是一样,不影响理解,都是一样的道理。1.1算法步骤Step1.给定初始质心:首先选取初始质心集合centroids说明:A.质心数量由用户给出,记为k,k-means最终得到的簇数量也是kB.每个质心的数值由初始质心的...原创 2018-04-11 09:50:50 · 24269 阅读 · 7 评论