机器学习
iteye_12567
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
svm的复杂度
原始问题的时间复杂度为O(d^3+n*d^2),但是如果不显示求解Hessian矩阵,时间复杂度为O(nd+P), 随机次梯度的时间复杂度是TO(d),对偶的时间解法时间复杂度为O(n_sv^3+n*n_sv^2)...原创 2010-08-25 20:44:09 · 3272 阅读 · 2 评论 -
随机森林
随机森林的基本过程是:(m*n,m为样本数,n为特征维)1,训练:随机选择若干特征r<<n(似乎一般去sqrt(n)),构造决策树;2,预测:通过所有决策树分类,然后以投票方式,得票数最多的分类即为分类值。决策树构造过程如下,其中最大化Information gain来获得最有效的特征:How to grow a Decision Treesource : [3]L...2011-07-16 23:25:49 · 239 阅读 · 0 评论 -
Programming.Collective.Intelligence中对常用机器学习算法的总结
朴素贝叶斯分类器,例子是有若干文档组成的样例,每个文档中的词语作为特征,通过独立分布假设和贝叶斯公司,文档属于某一分类的概率,可以转化为该分类中,这个文档中每个特征出现的概率最大优势是处理大数据集时的速度,因为在更新概率计算时不需要用到以前的数据,即适合incremental training的应用,例如垃圾邮件过滤另一个优势是分类器的学习过程易于理解,很容易在数据库中发现最易于分类的特征...2011-06-28 10:46:50 · 206 阅读 · 0 评论 -
有待验证的小Idea
A Nonparametric Information Theoretic Clustering Algorithm和和supervised的方法结合的可能性.A Conditional Random Field for Multiple-Instance Learning用到样本间的相关性, 类似zhihua zhou的Multi-instance learning by treating...原创 2010-09-17 16:20:21 · 135 阅读 · 0 评论 -
A Fast Algorithm for Learning a Ranking Function from Large-Scale Data Sets
A Fast Algorithm for Learning a Ranking Function from Large-Scale Data Sets原创 2010-09-04 10:50:21 · 137 阅读 · 0 评论 -
NdcgBoost和SoftRank
相同点: 两者均是以NDCG的期望值作为目标函数, 不同点:1, 前者对permuation来做变量取值,后者对文档的分数作为变量取值. 2, 前者每个permutation的取值与F有关,见Eq.(6), 并且取值并非二元关系,而是以概率形式有关. 后者对文档分数的期望值需要假设相应的分布,分布的参数如何取值是个问题,而且假设的合理性并没有说明.3, 前者做了两次近似处理,找到N...原创 2010-08-31 17:36:13 · 692 阅读 · 0 评论 -
Directly optimization of evaluation measure in information retrieval
文章首先针对adarank, svm-map提出它们的共同点:均是优化IR measure的上界, 但是前者的界 是基于IR measure, 后者的界是基于最优排序和非最优排序的对,形式为:仔细观察发现,将PERMU-rank写成类似(9)的形式,和SVMMAP的区别仅仅是把max变成了求和! 这篇文章太扯蛋了... permurank利用了第二种bound的构造形式...原创 2010-08-29 23:20:16 · 175 阅读 · 0 评论 -
listwise类方法的一些想法
Inf. Retr. 2010, tendency correlation for direct optimization of evaluation measure in information retrieval. svm-map与svm-ndcg的区别;lambdarank仅仅是weighted pairwise的方法,从chappelle09年设计的listwise方法中找寻答...原创 2010-08-29 21:37:56 · 311 阅读 · 0 评论 -
要看的几篇文章
colt2010上: Adaptive Bound Optimization for Online Convex Optimization :http://www.colt2010.org/papers/104mcmahan.pdf colt2010上: Adaptive Subgradient Methods for Online Learning and Stochastic ...原创 2010-08-27 17:40:19 · 181 阅读 · 0 评论 -
Regularized Boost
Regularized Boost for Semi-Supervised Learning, study/ML/NIPS目录下: 这篇文章沿用了Functional Gradient technique的框架. 在原框架中, 每轮得到的base learner需要使得<-\delta C(F),f> 最大化,这样保证每一轮得到的f都能使C(F)尽可能减小. 文章中找base lear...原创 2010-08-27 11:38:47 · 127 阅读 · 0 评论 -
读The Elements of Statistical learning
Chapter 2 Overview of Supervised learning 2.1 几个常用且意义相同的术语: inputs在统计类的文献中,叫做predictors, 但经典叫法是independently variables,在模式识别中,叫做feature. outputs,叫做responses, 经典叫法是dependently variables. 2.2 给出了回归和分类问...原创 2010-08-26 20:22:01 · 282 阅读 · 0 评论 -
hadoop单机版搭建图文详解
前置条件:1、ubuntu10.10安装成功(个人认为不必要花太多时间在系统安装上,我们不是为了装机而装机的)2、jdk安装成功(jdk1.6.0_23for linux版本,图解安装过程http://freewxy.iteye.com/blog/882784 )3、下载hhadoop0.21.0.tar.gz(http://apache.etoak.co...原创 2011-09-06 17:16:08 · 148 阅读 · 0 评论
分享