
Machine Learing
文章平均质量分 76
DianaCody
这个作者很懒,什么都没留下…
展开
-
深度学习
from:百度百科目录:1.简介 2. 基础概念 :2.1 深度 2.2 解决问题 3. 核心思想 4. 解决问题 5. 转折点 6. 成功应用简介 深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据转载 2013-10-16 16:43:28 · 1421 阅读 · 0 评论 -
【推荐系统】互联网商用推荐系统算法实践与框架总结
推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。 随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。 解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后,将意图转换为几个简短的词或者短语的组合(即query),然后将这些词或短语组合提交到相应的搜索引擎,再由搜索引擎在海量的信息原创 2015-02-23 12:49:12 · 2698 阅读 · 0 评论 -
【机器学习】支持向量机SVM
一、步骤1.找最大分类间隔2.定目标函数3.计算α值(不断调整训练)与ω值4.SMO可以优化算法5.核函数对高维数据处理 二、SVM要学会如何使用libsvm以及一些参数的调节经验,另外需要理清楚svm算法的一些思路:1.svm中最优分类面是对所有样本的几何裕量最大,即原创 2014-11-02 21:07:41 · 2802 阅读 · 0 评论 -
【机器学习】推荐系统、SVD分解降维
推荐系统:1.基于内容的实现:KNN等2.基于协同滤波(CF)实现:SVD→ pLSA(从LSA发展而来,由SVD实现)、LDA、GDBT SVD算是比较老的方法,后期演进的主题模型主要是pLSA和LDA。pLSA主要基于EM最大期望算法,而LDA主要基于Gibbs抽样算法,这个在下一篇文章《主题模型》里会详细介绍。 一、推荐系统 推荐系统实原创 2014-11-04 09:18:59 · 6432 阅读 · 0 评论 -
【机器学习】主题模型(二):pLSA和LDA
一、pLSA(概率潜在语义分析) pLSA: -------有过拟合问题,就是求D, Z, W pLSA由LSA发展过来,而早期LSA的实现主要是通过SVD分解。pLSA的模型图如下:原创 2014-11-04 14:47:21 · 4075 阅读 · 0 评论 -
【机器学习】关联规则挖掘(二):频繁模式树FP-growth
Apriori算法的一个主要瓶颈在于,为了获得较长的频繁模式,需要生成大量的候选短频繁模式。FP-Growth算法是针对这个瓶颈提出来的全新的一种算法模式。目前,在数据挖掘领域,Apriori和FP-Growth算法的引用次数均位列三甲。 FP的全称是Frequent Pattern,在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-原创 2014-11-04 09:12:39 · 3325 阅读 · 0 评论 -
【机器学习】主题模型(一):条件概率、矩阵分解
两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让搜索更加智能化。主题模型是对文字隐含主题进行建模的方法,其克服传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。关键词:主题模型技术领域:搜索技术、自然语言处理******************************************原创 2014-11-04 09:24:50 · 6921 阅读 · 0 评论 -
【机器学习】聚类算法——K均值算法(k-means)
一、聚类1.基于划分的聚类:k-means、k-medoids(每个类别找一个样本来代表)、Clarans 2.基于层次的聚类:(1)自底向上的凝聚方法,比如Agnes (2)自上而下的分裂方法,比如Diana 3.基于密度的聚类:Obsacn、Optics、Birch(CF-Tree)、Cure 4.基于网原创 2014-11-03 08:49:17 · 2492 阅读 · 0 评论 -
【机器学习】迭代决策树GBRT(渐进梯度回归树)
一、决策树模型组合 单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策树,比较典型的就是迭代决策树GBRT和随机森林RF。在最近几年的paper上,如iccv这种重量级会议,iccv09年的里面有不少文章都是与Boosting和随机森林相关的。模型组合+决策树相关算法有两种比较基本的形式:随机森林RF与GBD原创 2014-11-01 23:29:53 · 5307 阅读 · 1 评论 -
【机器学习】k近邻算法(kNN)
一、写在前面 本系列是对之前机器学习笔记的一个总结,这里只针对最基础的经典机器学习算法,对其本身的要点进行笔记总结,具体到算法的详细过程可以参见其他参考资料和书籍,这里顺便推荐一下Machine Learning in Action一书和Ng的公开课,当然仅有这些是远远不够的,更深入的研究分析可以参见其他国外的论文及站点,此处不再一一列举。 机器学习更多的是建模原创 2014-11-01 16:56:18 · 3077 阅读 · 0 评论 -
【机器学习】分类算法——Logistic回归
一、LR分类器(Logistic Regression Classifier) 在分类情形下,经过学习后的LR分类器是一组权值w0,w1, …, wn,当测试样本的数据输入时,这组权值与测试数据按照线性加和得到x = w0+w1x1+w2x2+… wnxn,这里x1,x2, …xn是样本的n个特征。 之后按照sigmoid函数的形式求出f(x) = 1/(1+原创 2014-11-02 15:33:21 · 4687 阅读 · 0 评论 -
【机器学习】分类器组合——AdaBoost
AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。AdaBoost其实只是boost的一个特例。 一、流程图原创 2014-11-03 07:58:50 · 4869 阅读 · 0 评论 -
【机器学习】关联规则分析(一):Apriori
一、Apriori原理 Apriori是关联分析中较早的一种方法,主要用来挖掘那些频繁项集合,其思想是:1.如果一个项目集合不是频繁集合,那么任何包含它的项目(超集)也一定不是频繁集。2.如果一个项目集合是频繁集合,那么它的任何非空子集(子集)也是频繁集合。 二、关联分析1.发现频繁项集→ 经常出现在一起的样本集合2.发现关联规则→ 暗示两种样本之间可能存原创 2014-11-03 20:40:04 · 2655 阅读 · 0 评论 -
【机器学习】文本分类——朴素贝叶斯Bayes
朴素贝叶斯主要用于文本分类。文本分类常见三大算法:KNN、朴素贝叶斯、支持向量机SVM。一、贝叶斯定理 贝叶斯公式思想:利用已知值来估计未知概率。已知某条件概率,如何得到两个事件交换后的概率,也就是已知P(A|B)的情况下如何求得P(B|A)。条件概率:P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。基本求解公式:原创 2014-11-02 09:45:13 · 2861 阅读 · 0 评论 -
【机器学习】随机森林RF
随机森林(RF, RandomForest)包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。通过自助法(boot-strap)重采样技术,不断生成训练样本和测试样本,由训练样本生成多个分类树组成的随机森林,测试数据的分类结果按分类树投票多少形成的分数而定。 随机森林以随机的方式建立一个森林,森林里有很多决策树,且每棵树之间无关联,当有一个新样本进入后,让森原创 2014-11-02 08:20:15 · 3620 阅读 · 0 评论 -
【机器学习】决策树C4.5、ID3
一、算法流程 step1:计算信息熵 step2: 划分数据集 step3: 创建决策树 step4: 利用决策树分类 二、信息熵Entropy、信息增益Gain重点:选择一个属性进行分支。注意信息熵计算公式。决策树作为典型的分类算法,基本思路是不断选取产生信息增益最大的属性来划分样例集和,原创 2014-11-01 21:50:29 · 2279 阅读 · 0 评论 -
【机器学习】EM最大期望算法
EM, ExpectationMaximization Algorithm, 期望最大化算法。一种迭代算法,用于含有隐变量(hidden variable)的概率参数模型的最大似然估计或极大后验概率估计,其概率模型依赖于无法观测的隐变量。 经常用在ML与计算机视觉的数据聚类领域。 EM应用:GMM混合高斯模型、聚类、HMM隐马尔科夫模型等。 一、Jese原创 2014-11-09 13:56:25 · 2281 阅读 · 0 评论 -
【Machine Learning】Mahout基于协同过滤(CF)的用户推荐
Mahout链接MySQL数据库,基于协同过滤(CF)的用户推荐源码实例原创 2014-09-05 12:02:27 · 3552 阅读 · 0 评论 -
【机器学习】机器学习中的数据清洗与特征处理
一、综述 如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标注数据生成=>模型学习=>模型应用”中的前两个步骤。 灰色框中蓝色箭头对应的是离线处理部分。主要工作是从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。 对清洗出的特征和标注数据进行处理,例如样本采样,样本原创 2015-02-23 13:58:28 · 2981 阅读 · 0 评论