
机器学习算法
CID( ͡ _ ͡°)
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
代价函数--损失函数
最小二乘法真实值y,预测值(x),则误差平方为找到合适的参数,使得误差平方和:最小解释:真实值减去预测值然后进行累加(累加符号),然后除去m求平均值(m为样本个数)相关系数我们使用相关系数去衡量线性相关性的强弱,相关系数越接近1,越接近线性关系,接近于-1的话,他们就是一个负相关的关系因为没有找到怎么样使用分子和分母的制作方式,只能是前面是分子, ' /...翻译 2019-04-23 18:19:50 · 627 阅读 · 0 评论 -
BP神经网络
BP神经网络也就是误差反向传播解决了多层神经网络的学习问题,极大促进了神经网络的发展.BP神经网络也是整个人工神经网络体系中的精华,广泛应用于分类识别,逼近,回归,压缩等领域.在实际应用中,大约80%的神经网络模型都采取了BP网络或BP网络的变化形式.Delta学习规则,也就是权值的改变..........................................原创 2019-05-18 01:32:02 · 346 阅读 · 1 评论 -
神经网络
感知器,为了改变权值模型收敛条件:误差小于某个预先设定的较小的值两次迭代之间的权值变化已经很小设定最大迭代次数,当迭代超过最大次数就停止单层感知器程序import numpy as pyimport matplotlib.pyplot as plt# 输入数据X = np.array([[1,3,3],[1,4,3],[1,1,1],[1...原创 2019-05-17 21:27:18 · 235 阅读 · 0 评论 -
梯度下降法 -- 一元线性回归
demo.pyimport numpy as npimport matplotlib.pyplot as plt# 载入数据data = np.genfromtxt('data.csv',delimiter=',')x_data = data[:,0] # 读取全部数据的第0列 ,也就是第一维数据y_data = data[:,1] # 读取全部数据的第1列 ,也就是...转载 2019-05-13 17:29:48 · 314 阅读 · 0 评论 -
逻辑回归
sigmoid / logistic Function我们定义逻辑回归的预测函数为,其中g(x) 函数是sigmoid函数. 正确率 / 召回率 / F1指标正确率与召回率是广泛应用于信息检索和统计学分类领域的两个度量值,用来评估结果的质量一般来说,正确率就是检索出来的条目有多少正确的,召回率就是所有正确的条目有多少被检索出来了.F1值 =...原创 2019-05-16 21:30:18 · 211 阅读 · 0 评论 -
贝叶斯算法
主要应用在新闻分类,文本分析,反正跟文本之类的归类都可以数据统计学处理的信息总体信息:当前总体样本符合某种分布.比如抛硬币二项分布.学生的某一科的成绩符合正太分布.样本信息:通过抽样得到的部分样本的某种分布抽样信息 = 总体信息 + 样本信息先验信息:抽样之前,有关推断问题中未知参数的一些信息,通常来自于经验或历史资料.基于总体信息 + 样本信息 + 先验信息进行统...原创 2019-05-20 22:28:13 · 689 阅读 · 0 评论 -
boosting算法
简介:adaBoost(自适应增强)的缩写,他的自适应在于:前一个基本分类器被错误分类的样本的权值会增大,而正确的分类样本的权值会减少,并再次用来训练下一个分类器,同时,在每一轮迭代中,加如一个新的若分类器,直到达到某一个预定的足够小的错误率,或达到预先指定的最大迭代次数才能确定最终的强分类器adaboost算法可以简述为三个步骤:1.首先,是初始化训练数据的权值分布D1.假设有N个...原创 2019-05-20 00:23:46 · 2419 阅读 · 0 评论 -
随机森林
RF = 决策树 + Bagging + 随机属性选择RF 算法流程:1.样本的随机:从样本集中用bagging的方式,随机选择n个样本2.特征的随机:从所有属性d中随机选择k个属性(k<d),然后从k个属性中选择最佳分割属性作为节点建立CART决策树3.重复以上两个步骤m次,建立m颗CART决策树.4,这m颗CART决策树形成随机森林,通过投票表决结果,决定数据属...原创 2019-05-19 23:15:54 · 206 阅读 · 0 评论 -
bagging实现
重复抽样from sklearn import neighborsfrom sklearn import datasetsfrom sklearn.ensemble import BaggingClassifierfrom sklearn import treefrom sklearn.model_selection import train_test_splitimport nu...原创 2019-05-19 22:56:34 · 2114 阅读 · 0 评论 -
决策树__CART算法
CART决策树的生成就是递归地构建二叉树的过程.CART用基尼(Gini)系数最小化准则来进行特征选择,生成二叉树.Gini系数计算:CART算法例子:分别计算他们的Gini 系数增益,取Gini系数增益值最大的属性作为决策树的根节点属性,根节点的Gini系数:Gini(是否拖欠贷款) =数据 :序号 是否有房 婚姻状况...原创 2019-05-19 21:48:38 · 492 阅读 · 0 评论 -
决策树
比较适合分析离散数据.如果是连续数据要先转成离散数据再做分析熵(entropy)概念一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常非常不确定的事情,或者是我们一无所知的事情,需要了解大量信息 ->信息量的度量就等于不确定性的多少:如果熵越大就代表这不确定性越大,熵越小就代表不确定性越小信息熵计算信息熵公式:假如有一个普通色子A,仍出...原创 2019-05-19 03:36:42 · 326 阅读 · 0 评论 -
梯度下降法
说明:梯度下降法是优化算法初始化不断改变,直到J()达到一个全局最小值,或局部极小值参数: 为学习率是代价函数的求导在求极小值时,在数据量很小的时候,可以使用矩阵求逆的方式求最优的θ值。但当数据量和特征值非常大,例如几万甚至上亿时,使用矩阵求逆根本就不现实。而梯度下降法就是很好的一个选择了.使用梯度下降算法的步骤:1)对θ赋初始值,这个值可以是随机的,也可以...翻译 2019-04-23 21:40:09 · 278 阅读 · 0 评论 -
KNN算法
1.为了判断位置实例的类别,以所有已知类别的实例作为参照选择参数k2.计算未知实例与所有已知实例距离3.选择最近k个已知实例4.根据少数服从多数的投票法则,让未知实例归类为k个邻近样本中最多数的类别欧式距离算法缺点算法复杂度较高(需要比较所有已知实例与要分类的实例)当其样本分布不平衡时,比如其中一类样本过大(实例数量过多)占主导的时候,新的未知实例容易被归类这个...原创 2019-05-18 20:48:02 · 209 阅读 · 0 评论