
机器学习
文章平均质量分 92
qq_34555202
这个作者很懒,什么都没留下…
展开
-
k-means
kmeans一般在数据分析前期使用,选取适当的k,将数据聚类后,然后研究不同聚类下数据的特点。算法原理:(1) 随机选取k个中心点;(2) 在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类;(3) 更新中心点为每类的均值;(4) j<-j+1 ,重复(2)(3)迭代更新,直至误差小到某个值或者到达一定的迭代步数,误差不变.空间复杂度o(N)时间复杂度o(...转载 2018-08-22 10:22:54 · 202 阅读 · 0 评论 -
网络参数初始化Xavier与MSRA
权值初始化的方法主要有:常量初始化(constant)、高斯分布初始化(gaussian)、positive_unitball初始化、均匀分布初始化(uniform)、xavier初始化、msra初始化、双线性初始化(bilinear)。可参考博客。重点介绍xavier与msra。xavier初始化 对于权值的分布:均值为0,方差为(1 / 输入的个数) 的 均匀分布。推导...转载 2019-01-03 09:10:27 · 476 阅读 · 0 评论 -
如何选择回归损失函数
无论在机器学习还是深度领域中,损失函数都是一个非常重要的知识点。损失函数(Loss Function)是用来估量模型的预测值 f(x) 与真实值 y 的不一致程度。我们的目标就是最小化损失函数,让 f(x) 与 y 尽量接近。通常可以使用梯度下降算法寻找函数最小值。损失函数有许多不同的类型,没有哪种损失函数适合所有的问题,需根据具体模型和问题进行选择。一般来说,损失函数大致可以分成两类:回归(...转载 2018-09-07 10:21:13 · 4136 阅读 · 0 评论 -
机器学习小结一
谷歌的自动驾驶汽车和机器人研发之路受到很多阻碍,但该公司真正的未来是机器学习,这种技术使计算机变得更加智能和个性化。 – Eric ...原创 2018-09-03 14:37:00 · 637 阅读 · 0 评论 -
机器学习常用中英文对照
Perceptron 感知机原创 2018-09-05 16:10:26 · 891 阅读 · 0 评论 -
机器学习入门:特征初期处理技巧
所谓特征工程,指的就是从数据中抽取包含大量信息的特征,方便模型易于学习的过程。所有的模型都是错误的,但其中有些是有用的。下面介绍几个优秀的数据特征处理技巧:1.数据转换为图像实例1:用数据集预测电力消耗热图的纵坐标DOW表示一周7天,横坐标则是一天24小时。很明显,周末整天的用电情况和工作日深夜的用电情况十分类似。由此,创建了一个特征——weekend proximity,...转载 2018-09-05 15:55:24 · 1117 阅读 · 0 评论 -
交叉验证
本文结构:什么是交叉验证法? 为什么用交叉验证法? 主要有哪些方法?优缺点? 各方法应用举例?什么是交叉验证法?它的基本思想就是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。为什么用交叉验证法?交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。 还可以从有限的数据中获取尽可能多...转载 2018-09-11 15:44:59 · 614 阅读 · 0 评论 -
DTW简介
dtw算法主要针对序列匹配提出的,尤其是当序列出现一定的飘移,欧氏距离度量就会失效。dtw常用在语音匹配当中,在图像处理里面也有一定的应用。 现在有两个序列X,Y. X=[2,3,4,7,9,2,1,2,1],Y=[1,1,1,1,2,3,3,4,7,8,9,1,1,1,1] 绘制在坐标轴上如下图 我们可以看到,两个序列的欧氏距离很大,因为两个序列存在横轴上的飘移。dtw算法就是为了解决...转载 2018-09-11 14:48:46 · 20168 阅读 · 2 评论 -
SVM对偶问题
一.关于优化问题的最基本的介绍 #优化问题这里面有很多东西,我先给出参考过的资料有,可以先看看这些资料自己总结一下,因为我觉得这部分内容很多人总结的都很好了:①《支持向量机导论》的第五章最优化理论②刚买的《统计学习方法》中的相关附录,不得不说这本书真的很棒③《An Introduction to Optimization》这本书专门讲最优化的,如果要系统理解我觉得可以看看,但我只看...转载 2018-08-30 15:35:22 · 1057 阅读 · 0 评论 -
PCA与LDA
注:这里说的LDA实际上讲的是Fisher linear discriminant analysis在machine learning领域,PCA和LDA都可以看成是数据降维的一种方式。但是PCA是unsupervised,也就是说不需要知道sample对应的label,而LDA是supervised,需要知道每一个数据点对应的label。下面分别解释PCA和LDA的基本原理1.PCA...转载 2018-08-21 19:45:25 · 496 阅读 · 0 评论 -
坐标下降
给定一个可微的凸函数,如果在某一点x,使得f(x)在每一个坐标轴上都是最小值,那么f(x)是一个全局的最小值。如果f(x)不可微,则不满足。同理:对所有的,其中g是可微的凸函数,每一个hi都是凸的,我们可以使用坐标下降寻求一个最小值。一 综述坐标下降法属于一种非梯度优化的方法,它在每步迭代中沿一个坐标的方向进行搜索,通过循环使用不同的坐标方法来达到目标函数的局部极小值。二 算法过程...转载 2018-08-30 16:30:54 · 672 阅读 · 0 评论 -
决策树考点
1.随机森林随机选特征的作用RF的话,如果有一个特征和标签特别强相关。选择划分特征时,如果不随机的从所用特征中随机取一些特征的话,那么每一次那个强相关特征都会被选取。那么每个树都会是一样的。这就是随机森林随机选取一些特征的作用,让某些树,不选这个强相关特征。2.Bagging 意义bootstrap aggregating 自举汇聚法模型很好,variable很大。3.GBDT...原创 2018-08-26 17:13:06 · 212 阅读 · 0 评论 -
过拟合问题
过拟合:在训练集表现好,在测试集表现一塌糊涂。常用方法:数据,样本不够,如果现在的训练集只是所有样本空间的一个小小的部分,那么这个模型的泛化能力就非常差(边画图,边说) B 可以加正则项,L1,L2正则。L1还可以用来选择特征。因为L1的话会把某些不重要的特征压缩为0,相当于特征选择。因为(画图)L1约束是正方形的,经验损失最有可能和L1的正方形的顶点相交,L1比较有棱角。所以可以把某些...原创 2018-08-26 16:59:23 · 200 阅读 · 0 评论 -
遗留问题:
LR为什么用sigmoid函数。SVM原问题和对偶问题关系。L1正则为什么可以把系数压缩成0REP剪枝。C4.5是悲观剪枝原创 2018-08-26 16:47:48 · 310 阅读 · 0 评论 -
MSRA初始化
方法同样来自于何凯明paper 《Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification》.MotivationMSRA初始化推导证明补充说明Motivation网络初始化是一件很重要的事情。但是,传统的固定方差的高斯分布初始化,在网络变深的时候使得模型很难收...转载 2019-01-03 09:15:55 · 569 阅读 · 0 评论