
机器学习算法
文章平均质量分 79
孙冬冬
做周鸿祎一样的男人!
展开
-
TF-IDF及其算法
TF-IDF及其算法概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-ID转载 2015-01-10 16:45:49 · 498 阅读 · 0 评论 -
数据挖掘笔试题
1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标转载 2015-03-01 16:41:09 · 45382 阅读 · 0 评论 -
EM算法 The EM Algorithm
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是转载 2015-03-17 16:06:15 · 1101 阅读 · 0 评论 -
奇人Breiman
机器学习界,虽然开宗立派不算久,但追思的先贤清单,也可以拉一长串了。因为这个领域,相比太多的学科,资历太嫩了,于是什么山头都避不过。比如我们今天要拜的Leo Breiman,他仙逝前是伯克利的统计系元老。但他留下的CART,Bagging, Random Forest……深深地影响了机器学习界但如果你觉得Breiman就是个纯粹的统计学家,那你就错了,他的一生,建树无数,涉猎甚广,纵情恣意。转载 2015-05-04 19:28:23 · 1610 阅读 · 0 评论