
机器学习
文章平均质量分 74
mousever
这个作者很懒,什么都没留下…
展开
-
画图解释LAR算法的几何意义
1)画图及文字解释p74页下半页关于LAR算法所定义的一系列向量的几何意义,及整个算法的几何意义回归模型: QQ图片20160323195657.png (972 Bytes)下载附件 保存到相册2016-3-23 19:59 上传(共有p个变量)给出具有n个样本的样本矩阵:QQ图片20160323195701.png (1转载 2016-05-25 08:40:53 · 4227 阅读 · 0 评论 -
R语言预处理之异常值问题
>>>>一、问题什么是异常值?如何检测异常值?请伙伴们思考或者留言讨论。>>>>二、解决方法1. 单变量异常值检测2. 使用局部异常因子进行异常值检测3. 通过聚类的方法检验异常值4. 检验时间序列数据里面的异常值>>>>三、R代码实现1、单变量异常值检测转载 2016-05-29 22:45:18 · 6527 阅读 · 0 评论 -
R语言主成分和因子分析篇
主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法,通过寻找一组更小 的、潜在的或隐藏的结构来解释已观测到的、变量间的关系。1.R中的主成分和因子分析R的基础安装包中提供了PCA和EFA的函数,分别为princomp()和factanal()p转载 2016-05-29 22:58:39 · 7579 阅读 · 1 评论 -
[Network Analysis] 复杂网络分析总结
阅读目录1. 复杂网络的特点2. 社区检测3. 结构平衡4. 影响最大化5. 网络传播6. 补充7. 参考文献 在我们的现实生活中,许多复杂系统都可以建模成一种复杂网络进行分析,比如常见的电力网络、航空网络、交通网络、计算机网络以及社交网络等等。复杂网络不仅是一种数据的表现形式,它同样也是一种科学研究的手段。复杂网络方面的研究目前受到了广泛的关注和研究,尤其是随着各种在线社交平台转载 2016-05-19 17:59:20 · 6380 阅读 · 1 评论 -
Fast unfolding of communities in large networks
作者:郑梓豪链接:https://zhuanlan.zhihu.com/p/19769897来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。接着上文,我们需要进一步了解Gephi工具计算modularity的算法。在Gephi社区中,有文档Modularity - Gephi Wiki说明了算法[1]。What & Why Community转载 2016-05-20 17:25:30 · 1124 阅读 · 0 评论 -
结合Scikit-learn介绍几种常用的特征选择方法
原文地址:http://dataunion.org/14072.html?utm_source=tuicool&utm_medium=referral特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能转载 2016-05-22 16:18:09 · 2203 阅读 · 2 评论 -
adaboost原理(包含权重详细解释)
1.1 Adaboost是什么 AdaBoost,是英文"Adaptive Boosting"(自适应增强)的缩写,由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。转载 2016-07-26 17:59:43 · 43003 阅读 · 9 评论 -
CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构区别
神经网络技术起源于上世纪五、六十年代,当时叫感知机(perceptron),拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。早期感知机的推动者是Rosenblatt。(扯一个不相关的:由于计算技术的落后,当时感知器传输函数是用线拉动变阻器改变电阻的方法机械实现的,脑补一下科学家们扯着密密麻麻的导线的样子…)但是,Rosenblatt的单层感知机有一转载 2016-08-07 18:09:01 · 1472 阅读 · 3 评论 -
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解转载 2016-08-07 21:03:27 · 1429 阅读 · 4 评论 -
深度学习座下的四大神兽:计算能力、算法、数据、场景
如今越来越多的人愿意和自己的虚拟私人助理交谈,只需要动动嘴就可以让Siri/Alexa/Rokid帮你完成发微信、订车票、设闹钟这样的闲事,还能提醒你吃药、开会,这样一个不需要付工资的贴心小棉袄怎么会不受喜爱呢?虚拟助理正在一步步接近现实中的私人助理,而背后支持它的正是深度学习的技术除了虚拟助理之外,深度学习技术还将是未来计算机视觉、自动驾驶、语音识别等多个领域的核心技术。而深度学习实践的四个关键转载 2016-08-29 17:39:47 · 4306 阅读 · 0 评论 -
最大似然概率和后验概率的区别
极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:D表示训练数据集,是模型参数相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结果,必须用一转载 2016-08-29 18:06:46 · 7647 阅读 · 0 评论 -
十大算法展辉煌历史,十大问题引锦绣前程
上篇博文(趣味数据挖之十)末尾许下一愿–介绍数据挖掘十大算法。在博友们友好的催促之下,现在才姗姗来迟,歉疚有加。凡人写博是十分个性化的业余活动(非平凡人物可能会雇佣团队写博);在科技的春种秋收季节,人们总会遇到若干突然冒出来的任务,而在次要活动中,最先停下来为正事让时间的,就是读博写博。言归正传,这篇突出资料性,先说三十年的十大算法,看数据挖掘的史上辉煌,再叙七年前提出的十大问题,证数据挖掘专转载 2016-08-31 13:33:32 · 803 阅读 · 0 评论 -
推荐系统中协同过滤算法实现分析(重要两个图!!)
最近研究Mahout比较多,特别是里面协同过滤算法;于是把协同过滤算法的这个实现思路与数据流程,总结了一下,以便以后对系统做优化时,有个清晰的思路,这样才能知道该如何优化且优化后数据亦能正确。 推荐中的协同过滤算法简单说明下: 首先,通过分析用户的偏好行为,来挖掘出里面物品与物品、或人与人之间的关联。 其次,通过对这些关联的关系做一定的运算,得出人与物品转载 2016-09-12 22:25:48 · 7916 阅读 · 0 评论 -
机器学习算法优缺点及其应用领域
决策树一、 决策树优点1、决策树易于理解和解释,可以可视化分析,容易提取出规则。2、可以同时处理标称型和数值型数据。3、测试数据集时,运行速度比较快。4、决策树可以很好的扩展到大型数据库中,同时它的大小独立于数据库大小。二、决策树缺点1、对缺失数据处理比较困难。2、容易出现过拟合问题。3、忽略数据集中属性的相互关联。4、ID3算法计算信息增益时结果转载 2016-08-23 19:54:41 · 4581 阅读 · 0 评论 -
机器学习性能评估指标
ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上转载 2015-07-18 17:39:04 · 7391 阅读 · 0 评论 -
半监督学习
传统的机器学习技术分为两类,一类是无监督学习,一类是监督学习。无监督学习只利用未标记的样本集,而监督学习则只利用标记的样本集进行学习。但在很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高,比如在生物学中,对某种蛋白质的结构分析或者功能鉴定,可能会花上生物学家很多年的工作,而大量的未标记的数据却很容易得到。这就促使能同时利用标记样本和未标记样转载 2016-05-28 20:27:41 · 35975 阅读 · 1 评论 -
从最大似然到EM算法浅解
机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引了那么多世人的目光。 我希望自己能通俗地把它理解或者说明白,但是,EM这个问题感觉真的不太好用通俗的语言去转载 2016-05-28 20:19:45 · 460 阅读 · 0 评论 -
最大似然估计(MLE)和最大后验概率(MAP)
最大似然估计:最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。最大似然估计中采样需满足一个很重要的假设,就是转载 2016-05-11 21:01:06 · 457 阅读 · 0 评论 -
构建机器学习系统的20个经验教训
数据科学家对优化算法和模型以进一步发掘数据价值的追求永无止境。在这个过程中他们不仅需要总结前人的经验教训,还需要有自己的理解与见地,虽然后者取决于人的灵动性,但是前者却是可以用语言来传授的。最近Devendra Desale就在KDnuggets上发表了一篇文章,总结了Quora的工程副总裁Xavier Amatriain在Netflix和Quora从事推荐系统和机器学习工作时所总结的20条经验教转载 2016-05-12 20:16:45 · 398 阅读 · 0 评论 -
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺转载 2016-05-12 20:33:51 · 581 阅读 · 0 评论 -
K最近邻(KNN,k-Nearest Neighbor)准确理解
用了之后,发现我用的都是1NN,所以查阅了一下相关文献,才对KNN理解正确了,真是丢人了。左图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟转载 2016-05-13 21:56:42 · 13706 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通转载 2016-05-15 10:14:34 · 453 阅读 · 0 评论 -
奇异值分解SVD应用——LSI
潜在语义索引(Latent Semantic Indexing)是一个严重依赖于SVD的算法,本文转载自之前吴军老师《数学之美》和参考文献《机器学习中的数学》汇总。————————————在自然语言处理中,最常见的两类的分类问题分别是,将文本按主题归类(比如将所有介绍亚运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种体育运动的名称个归成一类)。这两种分类问题都可用通过转载 2016-05-15 10:35:03 · 459 阅读 · 0 评论 -
推荐系统的重点、难点问题
随着近年来对推荐系统研究的开展,很多研究中的重点、难点问题得到研究者的关注和共识[7],主要包括:1)特征提取问题虽然在信息检索中,文本等对象特征的提取技术已经很成熟,但是推荐系统的对象不一定具有文本特征或者文本不足以作为描述[1],此时特征的选择出现了问题。尤其是网络上广泛存在的多媒体数据如音乐、视频、图像等,自动化的特征提取方法需要结合多媒体内容分析领域的相关技术。另一个问题是特征的区转载 2016-05-15 11:14:54 · 5420 阅读 · 0 评论 -
[学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis)
读了著名的【Google News Personalization Scalable Online CF】,提及到针对用户聚类,利用相似用户性信息计算喜欢的news。其中包含min-hash以及plsi,产生了对plsi的兴趣。plsi是model-based 推荐算法,属于topic(aspect) model,最近研究了topic model,发现其在NLP领域用途很大。引入:转载 2016-05-15 11:34:12 · 335 阅读 · 0 评论 -
Frequent Pattern 挖掘之二(FP Growth算法)
Frequent Pattern 挖掘之二(FP Growth算法)FP树构造FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果,它采用了一种简洁的数据结构,叫做frequent-pattern tree(频繁模式树)。下面就详细谈谈如何构造这个树,举例是最好的方法。请看转载 2016-05-15 14:04:04 · 455 阅读 · 0 评论 -
机器学习——海量数据挖掘解决方案
大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈交易监测等等。达观数据技术团队开发过智能文本内容审核系统、作弊监测系统、用户建模系统等多个基于大数据技术的应用系统。机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,将达观在大数据技术实践时的一些经验与大家分享。互联网的海量数转载 2016-05-15 17:07:51 · 1807 阅读 · 0 评论 -
机器学习那些事
【原题】A Few Useful Things to Know About Machine Learning【译题】机器学习的那些事【作者】Pedro Domingos【译者】刘知远【说明】译文载于《中国计算机学会通讯》 第 8 卷 第 11 期 2012 年 11 月 ,本文译自Communications of the ACM 2012年第10期的“A Few转载 2016-05-15 17:37:59 · 2943 阅读 · 0 评论 -
广义线性模型(GLM)
广义线性模型(generalized linear model, GLM)是简单最小二乘回归(OLS)的扩展,在OLS的假设中,响应变量是连续数值数据且服从正态分布,而且响应变量期望值与预测变量之间的关系是线性关系。而广义线性模型则放宽其假设,首先响应变量可以是正整数或分类数据,其分布为某指数分布族。其次响应变量期望值的函数(连接函数)与预测变量之间的关系为线性关系。因此在进行GLM建模时,需要指转载 2016-05-15 20:56:40 · 29632 阅读 · 0 评论 -
ChiMerge 算法: 以鸢尾花数据集为例
ChiMerge 是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方分析:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。基本思想:对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。参考:1. ChiMerge:Discret转载 2016-09-03 19:47:44 · 4115 阅读 · 0 评论