
算法学习
文章平均质量分 88
Paper易论
AIGC 前沿技术的翻译者与引路人
展开
-
逻辑回归详解及Python实现
转载自:一、逻辑回归(LogisticRegression) Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。之前在经典之作《数学之美》中也看到了它用于广告预测,也就是根据某广告被用户点击的可能性,把最可能被用户点击的广告摆在用户能看到的地方,然后叫他“你点我啊!”用户点了,你就有钱收了。这就是为什么转载 2014-11-08 11:04:18 · 5125 阅读 · 0 评论 -
聚类算法实践——层次、K-means聚类
转载自:所谓聚类,就是将相似的事物聚集在一起,而将不相似的事物划分到不同的类别的过程,是数据分析之中十分重要的一种手段。比如古典生物学之中,人们通过物种的形貌特征将其分门别类,可以说就是一种朴素的人工聚类。如此,我们就可以将世界上纷繁复杂的信息,简化为少数方便人们理解的类别,可以说是人类认知这个世界的最基本方式之一。 在数据分析的术语之中,聚类和分类是两种转载 2014-11-07 15:05:51 · 1131 阅读 · 0 评论 -
岭回归、LASSO与LAR的几何意义
01.png (24.65 KB, 下载次数: 1)下载附件 保存到相册2014-5-1 19:48 上传原创 2014-11-08 17:00:42 · 4736 阅读 · 1 评论 -
围猎深度学习
转载自:http://blog.sina.com.cn/s/blog_990865340101gl32.html深度学习是大数据下最热门的趋势之一,这项技术将对自然语言处理和图像识别等前沿领域提供支持。Gigaom.com网站整理了一个指南:深度学习领域的快速发展,鼓舞着越来越多在自然语言处理和图像识别等领域的初创企业去研究它。同时,包括Google、微软、Facebook和雅虎在内的转载 2014-11-08 18:12:22 · 650 阅读 · 0 评论 -
机器学习(Machine Learning)&深度学习(Deep Learning)资料
转载自:《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Overview》介绍:这是瑞士人工智能实验室Jurge转载 2014-11-09 10:51:36 · 944 阅读 · 0 评论 -
协同过滤
转载自:http://blog.sina.com.cn/s/blog_68ffc7a40100ueby.html在社交网络的系统设计中,推荐是一种很常见的功能。比如说,人人网有推荐好友的功能,淘宝有推荐商品的功能。那么这些功能是如何实现的呢?其实就是基于我们这篇博客要谈到的算法-协同过滤。协同过滤就是解决类似这样的推荐问题的。这篇博客就介绍一下协同过滤算法(简称CF-collactiv转载 2014-11-09 11:24:22 · 760 阅读 · 0 评论 -
中文分词与马尔科夫模型之二:隐马尔科夫模型与维特比
转载自:前面一篇博客讲到了中文分词的机械分词算法,这种算法实现相对比较简单,但是分词效果还是有待商榷。比如下面这样一句话:产量三年中将增长两倍。按照机械分词的算法,它可能会被分成这样一种形式:产量 | 三年 | 中将 | 增长 | 两倍。 机械分词将‘中将’分成了一个词,的确‘中将’在词典中是有这么一个词,但在这句话中将它们划分成一个词显然是不合理的,于是一种新的方法就被提出来了 -转载 2014-11-09 11:26:42 · 643 阅读 · 0 评论 -
贝叶斯分类器与贝叶斯网络
转载自:http://blog.sina.com.cn/s/blog_68ffc7a40100ueb5.html贝叶斯分类器是一种基于贝叶斯公式的分类器,是一种基于统计的分类器,它计算在某一特征向量的前提下,各种分类可能出现的概率.把概率最大的那个类当作最终的分类结果.贝叶斯分类器分为2种:朴素贝叶斯分类器,贝叶斯网络.这篇博克简单介绍下这两种分类器原理.朴素贝叶斯分类转载 2014-11-09 11:31:57 · 1737 阅读 · 0 评论 -
Aprior算法
转载自:http://blog.sina.com.cn/s/blog_68ffc7a40100uebc.html数据挖掘中有一个很重要的应用,就是Frequent Pattern挖掘,翻译成中文就是频繁模式挖掘。这篇博客就想谈谈频繁模式挖掘相关的一些算法。定义何谓频繁模式挖掘呢?所谓频繁模式指的是在样本数据集中频繁出现的模式。举个例子,比如在超市的交易系统中,记载了很多转载 2014-11-09 11:33:10 · 1401 阅读 · 0 评论 -
十张图解释机器学习的基本概念
转载自:http://blog.jobbole.com/63748/在解释机器学习的基本概念的时候,我发现自己总是回到有限的几幅图中。以下是我认为最有启发性的条目列表。1. Test and training error: 为什么低训练误差并不总是一件好的事情呢:ESL 图2.11.以模型复杂度为变量的测试及训练错误函数。2. Under and ove转载 2014-11-09 11:35:32 · 541 阅读 · 0 评论 -
Deep Learning and Shallow Learning
转载自:http://www.tuicool.com/articles/uqIVZ3由于 Deep Learning 现在如火如荼的势头,在各种领域逐渐占据 state-of-the-art 的地位,上个学期在一门课的 project 中见识过了 deep learning 的效果,最近在做一个东西的时候模型上遇到一点瓶颈于是终于决定也来了解一下这个魔幻的领域。据说 Deep转载 2014-11-09 11:36:28 · 660 阅读 · 0 评论 -
聚类算法实践——PCCA、SOM、Affinity Propagation
转载自:http://www.itongji.cn/article/0R52E22013.html这篇日志是这个系列里算法部分的最后一篇,关注的是几个相对另类一点的聚类算法:PCCA、SOM和Affinity Propagation。PCCA是设计来专门用于马尔科夫模型的一种聚类算法;SOM是基于神经网络模型的自组织聚类;最后的Affinity Propagation则是在07年才在S转载 2014-11-07 15:09:24 · 5772 阅读 · 0 评论 -
K-均值聚类分析
转载自:http://blog.jobbole.com/16048/转载 2014-11-09 11:09:33 · 1800 阅读 · 0 评论 -
常见机器学习算法思想简单梳理
转载自:http://blog.jobbole.com/74438/前言:找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需转载 2014-11-09 11:17:35 · 913 阅读 · 0 评论 -
MapReduce框架下的FP Growth算法概述
转载自:http://blog.sina.com.cn/s/blog_68ffc7a40100uebi.html前面的博客分析了关联分析中非常重要的一个算法-FP Growth.该算法根据数据库在内存中构造一个精巧的数据结构-FP Tree,通过对FP Tree不断的递归挖掘就可以得到所有的完备Frequent Patterns.但是在目前海量数据的现状下,FP Tree已经大到无法驻转载 2014-11-09 11:30:56 · 1565 阅读 · 0 评论 -
互联网世界的“人工智能”——探秘“深度学习”的前世今生
转载自:http://blog.sina.com.cn/s/blog_990865340101gl2g.html编者按:本文来自“流浪汉”投稿(@ZhangLumin),一个在硅谷工作的码农,有机器学习背景,平常对产品方面很有兴趣。最近一段时间里,Facebook、Google、Yahoo!、百度等各大公司都在尝试将深度学习(deep learning)算法运用到产品开发中,以期使转载 2014-11-08 18:14:36 · 673 阅读 · 0 评论 -
Box-Cox变换
转载自:http://site.douban.com/182577/widget/notes/12866356/note/292509009/Box-Cox变换是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。比如在使用线性回归的时候,由于残差 \epsilon 不符合正态分布而不满足建模的条件,这时候要对响应变量Y进行变换,把数据变成正态的。变换的形式是转载 2014-11-08 20:05:05 · 12439 阅读 · 0 评论 -
深度学习(Deep Learning)综述及算法简介
转载自:前言:本文翻译自deeplearning网站,主要综述了一些论文、算法已经工具箱。 引言:神经网络(Neural Network)与支持向量机(Support Vector Machines,SVM)是统计学习的代表方法。可以认为神经网络与支持向量机都源自于感知机(Perceptron)。感知机是1958年由Rosenblatt发明的线性分类模型。感知机对线性分转载 2014-11-09 10:47:55 · 1337 阅读 · 0 评论 -
基于增量更新的协同过滤
转载自:http://blog.sina.com.cn/s/blog_68ffc7a40100uec0.html前面的一篇文章分析了基本的协同过滤算法,协同过滤最大的问题是计算量过大,为了解决这个问题,就有了基于增量更新的协同过滤方法。先回顾一下基本的协同过滤算法,计算两个用户基于显式评级的相似度公式如下:那么我们有下面的公式:需要解释一下,n'转载 2014-11-09 11:24:21 · 1974 阅读 · 0 评论 -
MapReduce框架下的FP Growth算法详解
转载自:Sharding这一步没什么好讲的,将数据库分成连续的大小相等的几个块,放置在不同的机器上。以Hadoop来讲,其框架本身就将整个数据库放在不同的机器上,形成不同的分区,因此在Hadoop上我们本身都不需要做什么。F_list计算这一步来讲也没什么好讲的,就是一个简单的频率统计,这是MapReduce最简单的一种应用。下面给出伪码,读者自己分析一下很容易转载 2014-11-09 11:29:27 · 1677 阅读 · 0 评论 -
FP Growth算法
转载自:http://blog.sina.com.cn/s/blog_68ffc7a40100uebg.htmlFP树构造FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果,它采用了一种简洁的数据结构,叫做frequent-pattern tree(频繁模式树)。下面转载 2014-11-09 11:30:56 · 889 阅读 · 0 评论 -
机器学习算法基础概念学习总结
转载自:http://blog.jobbole.com/74716/1.基础概念:(1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据,1分作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精转载 2014-11-09 11:43:40 · 577 阅读 · 0 评论 -
机器学习实践中的 7 种常见错误
转载自:http://blog.jobbole.com/70684/编注:本文作者是 Codecademy 的分析主管 Cheng-Tao Chu,其专长是数据挖掘和机器学习,之前在 Google、LinkedIn和Square就职。统计建模非常像工程学。在工程学中,有多种构建键-值存储系统的方式,每个设计都会构造一组不同的关于使用模式的假设集合。在统计建模中,有很转载 2014-11-09 11:57:35 · 658 阅读 · 0 评论 -
深度学习(Deep Learning)综述
转载自:http://www.cnblogs.com/ysjxw/archive/2011/10/08/2201819.html转载 2014-11-09 10:51:08 · 827 阅读 · 0 评论 -
王益:分布式机器学习的故事
转载自:http://blog.jobbole.com/57027/从毕业加入Google开始做分布式机器学习,到后来转战腾讯广告业务,至今已经七年了。我想说说我见到的故事和我自己的实践经历。这段经历给我的感觉是:虽然在验证一个新的并行算法的正确性的时候,我们可以利用现有框架,尽量快速实现,但是任何一个有价值的机器学习思路,都值得拥有自己独特的架构。所以重点在有一个分布式操作系统,方便转载 2014-11-09 11:45:41 · 975 阅读 · 0 评论 -
机器学习常见算法分类汇总
转载自:http://blog.jobbole.com/77620/机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的转载 2014-11-09 11:47:26 · 510 阅读 · 0 评论 -
深度学习、自然语言处理和表征方法
转载自:http://blog.jobbole.com/77709/简介过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。虽然结果好,我们也必须思考……它们为什么这么好使?在这篇文章里,我综述一下在自然语言处理(NLP)上应用深度神经网络得到的一些效果极其显著的成果。我希望能提供一个能解释为何转载 2014-11-09 11:57:14 · 578 阅读 · 0 评论 -
EM算法
转载自:http://blog.sina.com.cn/s/blog_68ffc7a40100uec5.html所谓EM算法,指的是就是Expect-Maximum算法,是一种非常有用的算法。假设这么一个问题,我们有一堆样本集合X,我们已知该样本总体的分布类型(比如是高斯分布),但是我们不知道这个分布的参数具体是多少,我们希望有方法能够根据这些观测到的样本集合来估计出这个分布的参数。怎转载 2014-11-09 11:22:00 · 1106 阅读 · 0 评论 -
有趣的机器学习:最简明入门指南
转载自:http://blog.jobbole.com/67616/在听到人们谈论机器学习的时候,你是不是对它的涵义只有几个模糊的认识呢?你是不是已经厌倦了在和同事交谈时只能一直点头?让我们改变一下吧!本指南的读者对象是所有对机器学习有求知欲但却不知道如何开头的朋友。我猜很多人已经读过了“机器学习”的维基百科词条,倍感挫折,以为没人能给出一个高层次的解释。本文就是你们想要的东西。转载 2014-11-09 11:48:48 · 424 阅读 · 0 评论 -
机器学习问题的十个实例
转载自:http://blog.jobbole.com/62334/机器学习是什么?这个问题的答案可以参考权威的机器学习定义,但是实际上,机器学习是由它所解决的问题定义的。因此,理解机器学习最好的方式是观察一些实例。首先来看一些现实生活中众所周知和理解的机器学习问题的实例,然后讨论标准的机器学习问题的分类(命名系统),学习如何辨别一个问题是属于哪种标准案例。这样做的意义是,了解转载 2014-11-09 11:52:11 · 882 阅读 · 0 评论 -
Andrew ng清华报告听后感
转载自:http://blog.sina.com.cn/s/blog_593af2a70101bqyo.htmlAndrew ng今天来清华作报告,我就几点重要的内容,谈谈理解和想法。 1)特征表示的粒度 学习算法在一个什么粒度上的特征表示,才有能发挥作用?就一个图片来说,像素级的特征根本没有价值,无法进行摩托车正例和负例的区分,而如果特征是一个具有结转载 2014-11-09 20:57:54 · 566 阅读 · 0 评论 -
机器学习——深度学习(Deep Learning)
转载自:http://blog.youkuaiyun.com/abcjennifer/article/details/7826917Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,最近研究了机器学习中一些深度学习的相关知识,本文给出一些很有用的资料和心得。Key Words:有监督学习与无监督学习,分类、回归,密度估转载 2014-11-09 21:01:11 · 435 阅读 · 0 评论 -
2014-7 Andrew Ng 自动化所报告听后感
转载自: 一早出发,8点20就赶到现场, 人越聚越多,Ng提前几分钟到达现场,掌声一片。 Ng的报告总体上提到了五个方向。 1)Deep Learning相比于传统方法的优势 首先,一个很直观的图,随着训练量的提高,传统方法很快走到天花板,而Deep Learning的效果还能持续走高,后来这个在提问环节也有同学问道,是否会一直提高,Andre转载 2014-11-09 21:04:07 · 696 阅读 · 0 评论 -
无监督特征学习——Unsupervised feature learning and deep learning
转载自:http://blog.youkuaiyun.com/abcjennifer/article/details/7804962无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优于其他方法进行training。本文将主要针对Andrew的unsu转载 2014-11-09 21:02:59 · 742 阅读 · 0 评论 -
隐马尔科夫模型(HMM)详解
转载自:隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑转载 2014-11-09 21:38:51 · 3706 阅读 · 0 评论 -
史上最详细最容易理解的HMM文章
转载自:http://www.52nlp.cn/hmm-learn-best-practices-four-hidden-markov-modelswiki上一个比较好的HMM例子分类 隐马尔科夫模型 HMM(隐马尔科夫模型)是自然语言处理中的一个基本模型,用途比较广泛,如汉语分词、词性标注及语音识别等,在NLP中占有很重要的地位。网上关于HMM的介绍讲解文档很转载 2014-11-09 21:39:18 · 1525 阅读 · 0 评论 -
特征选择常用算法综述
转载自:1 综述 (1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2) 为什么要做特征选择在机器学习的实际应用中,特征数量往往较多,其中可转载 2014-11-10 21:36:56 · 981 阅读 · 0 评论 -
深度信念网络(DBN)
转载自:http://www.aiuxian.com/article/p-708093.html深度神经网路已经在语音识别,图像识别等领域取得前所未有的成功。本人在多年之前也曾接触过神经网络。本系列文章主要记录自己对深度神经网络的一些学习心得。链接地址1. 自联想神经网络与深度网络 自联想神经网络是很古老的神经网络模型,简单的说,它就转载 2014-11-10 22:51:20 · 1131 阅读 · 0 评论 -
数据挖掘常用聚类算法性能比较
转载自:http://www.douban.com/note/275659919/1 BIRCH算法 BIRCH算法即平衡迭代削减聚类法,其核心是用一个聚类特征3元组表示一个簇的有关信息,从而使一簇点的表示可用对应的聚类特征,而不必用具体的一组点来表示。它通过构造满足分支因子和簇直径限制的聚类特征树来求聚类。BIRCH算法通过聚类特征可以方便地进行中心、半径、直径及类内、类间距离的运算。转载 2014-11-10 21:34:34 · 885 阅读 · 0 评论 -
SIFT特征提取分析
转载自:http://blog.youkuaiyun.com/abcjennifer/article/details/7639681SIFT(Scale-invariant feature transform)是一种检测局部特征的算法,该算法通过求一幅图中的特征点(interest points,or corner points)及其有关scale 和 orientation 的描述子得到特征并进转载 2014-11-10 21:43:57 · 813 阅读 · 0 评论