
机器学习
文章平均质量分 80
qq_26091271
这个作者很懒,什么都没留下…
展开
-
机器学习问题方法总结
大类名称关键词有监督分类决策树信息增益分类回归树Gini指数,Χ2统计量,剪枝朴素贝叶斯非参数估计,贝叶斯估计线性判别分析Fishre判别,特征向量求解K最邻近相似度度量:欧氏距离、街区距离、编辑距离、向转载 2015-12-26 11:08:45 · 502 阅读 · 0 评论 -
机器学习算法
1.C4.5算法。C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断,而C4.5采用的是增益率。详细介绍链接:http://blog.youkuaiyun.com/androidlushangderen/article/details/423958652.CART算法。CART算法的全称是分类回归树算法,他是一个二元分类,采用转载 2016-10-17 19:49:08 · 315 阅读 · 0 评论 -
最小二乘法
1.最小二乘法的背景这种东东的来源,比较容易找到而且比较靠谱的途径自然是wiki百科了,以下部分的内容来自wiki百科: 1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯转载 2016-10-30 22:24:39 · 352 阅读 · 0 评论 -
简单线性回归的随机梯度下降算法实现:Linear Regression - SGD
object sgdDemo{ def main(args: Array[String]): Unit = { val featuresMatrix: List[List[Double]] = List(List(1, 4), List(2, 5), List(5, 1), List(4, 2))//特征矩阵转载 2016-11-28 22:09:24 · 884 阅读 · 0 评论 -
协同过滤
http://blog.youkuaiyun.com/pztyz314151/article/details/51982313转载 2016-11-01 18:48:37 · 478 阅读 · 0 评论 -
ALS推荐算法在Spark上的优化--从50分钟到3分钟
从50多分钟到3分钟的优化某推荐系统需要基于Spark用ALS算法对近一天的数据进行实时训练, 然后进行推荐. 输入的数据有114G, 但训练时间加上预测的时间需要50多分钟, 而业务的要求是在15分钟左右, 远远达不到实时推荐的要求, 因此, 我们与业务侧一起对Spark应用进行了优化.另外提一下, 该文最好与之前我写的另一篇blog 一起看, 因为一些细节我不会再在该文中描述转载 2016-11-01 21:04:29 · 900 阅读 · 0 评论 -
Spark构建分类模型
以逻辑回归模型举例介绍完整的分类模型构建过程。 数据集下载:http://www.kaggle.com/c/stumbleupon该数据集是关于网页中推荐的页面是短暂存在还是可以长时间流行的一个分类问题,目标值-1表示长久,0表示短暂。首先将数据第一行删除,通过管道保存到以train_noheader.tsv命名的文件中1转载 2016-11-01 22:08:07 · 1358 阅读 · 0 评论 -
模拟退火算法
模拟退火算法是用来求解最优化问题的算法。比如著名的TSP问题,函数最大值最小值问题等等。接下来将以如下几个方面来详细介绍模拟退火算法。 Contents 1. 模拟退火算法认识 2. 模拟退火算法描述 3. 费马点问题求解 4. 最小包含球问题求解 5. 函数最值问题求解 6. TSP问题求解转载 2016-12-02 11:48:41 · 372 阅读 · 0 评论 -
特征选择
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自转载 2017-04-06 20:36:49 · 442 阅读 · 0 评论 -
模拟退火算法
模拟退火算法是用来求解最优化问题的算法。比如著名的TSP问题,函数最大值最小值问题等等。接下来将以如下几个方面来详细介绍模拟退火算法。 Contents 1. 模拟退火算法认识 2. 模拟退火算法描述 3. 费马点问题求解 4. 最小包含球问题求解 5. 函数最值问题求解 6. TSP问题求解转载 2016-11-07 17:14:29 · 1696 阅读 · 0 评论 -
深度学习案例
如果你急需使用一张照片,但是这张照片分辨率很低。没关系,深度学习算法已经能够为低分辨率的照片提高分辨率。首先来看一下效果: Github上有两个案例供大家参考: https://github.com/alexjc/neural-enhance https://github.com/alexjc/neural-enhance深度学习系统也能做到“有感情的朗读课文”了,说不准比转载 2016-11-04 21:21:37 · 600 阅读 · 0 评论 -
机器学习的正则化
1. The Problem of Overfitting1还是来看预测房价的这个例子,我们先对该数据做线性回归,也就是左边第一张图。如果这么做,我们可以获得拟合数据的这样一条直线,但是,实际上这并不是一个很好的模型。我们看看这些数据,很明显,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。我们把此类情况称为欠转载 2016-11-02 22:39:00 · 313 阅读 · 0 评论 -
机器学习——模型评估与模型选择
评价一个机器学习模型的好坏需要特定的评估方法,并据此对模型进行选择,从而得到一个更好的模型。本文主要是关于模型评估与模型选择的笔记,以及利用 scikit-learn 对 Logistic 回归进行的结果进行交叉检验。1. 训练误差,测试误差与泛化误差学习器(模型)在训练集上表现出来的误差称为 训练误差(training error) 或 经验误差(empirical error)转载 2016-07-10 22:52:21 · 4164 阅读 · 0 评论 -
机器学习中的各种距离
1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8. 汉明距离9. 杰卡德距离 & 杰卡德相似系数10. 相关系数 & 相关距离11. 信息熵============================================================转载 2016-09-13 19:28:57 · 2519 阅读 · 0 评论 -
机器学习中的相似度度量(1)
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标转载 2016-09-18 09:37:58 · 935 阅读 · 0 评论 -
机器学习中相似度度量(2)
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚 类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x)=0 // 到自己的距离为0 2) 0转载 2016-09-18 09:39:13 · 4392 阅读 · 0 评论 -
ID3
摘要: 决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)转载 2016-09-20 19:33:58 · 398 阅读 · 0 评论 -
ID3 算法案例
本文使用的Python库包括numpypandasmathoperatormatplotlib本文所用的数据如下: Idx色泽根蒂敲声纹理脐部触感 密度 含糖率 label1青绿蜷缩浊响转载 2016-09-20 19:50:46 · 2863 阅读 · 1 评论 -
ID3和C4.5的区别和联系
ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法也暴露出一些问题,具体如下: (1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。 (2)ID3是非递增算法。 (3)ID3是单变量决策树(在分枝节点上只考虑单个属性),许多复杂概念的表达困难,属性相互关系强调不够,容易导转载 2016-09-20 20:10:34 · 3702 阅读 · 0 评论 -
BP神经网络(经验公式)
今天来讲BP神经网络,神经网络在机器学习中应用比较广泛,比如函数逼近,模式识别,分类,数据压缩,数据挖掘等领域。接下来介绍BP神经网络的原理及实现。 Contents 1. BP神经网络的认识 2. 隐含层的选取 3. 正向传递子过程 4. 反向传递子过程 5. BP神经网络的注意点 6. BP神经网络的转载 2017-07-08 20:18:33 · 17743 阅读 · 2 评论