
机器学习&数据挖掘&自然语言处理
文章平均质量分 85
jinesse
这个作者很懒,什么都没留下…
展开
-
挖掘频繁模、关联和相关性(3)
模式评估方法强规则不一定是有趣的上面的例子虽然是强规则,然而,是一种规则误导,因为购买录像的概率是75%,比66%还高。事实上,计算机游戏和录像是负相关的,因为买一种实际上降低了买另一种的可能性。从关联分析到相关分析支持度和置信度度量不足以过滤掉无趣的关联规则。为了处理这个问题,可以使用相关性度量来扩充关联规则的支持度-置信度框架。这导致如下形式的相关规则(correlation rule)A⇒B[原创 2015-10-30 14:55:26 · 439 阅读 · 0 评论 -
理想的机器学习书
转自:http://www.52cs.org 作者:老师木 首先先简单写点吴军《数学之美》和李航《统计机器学习原理》的书评,然后再谈我心中理想的机器学习书。 我买了一本吴军的《数学之美》,这是一本不错的科普书,特色是作者与很多传奇人物有过交往,能讲一些他们的八卦。但原理介绍方面,还是有一些瑕疵。1)最大熵、LR、CRF这三个算法本是一个道理,却分散在三章中介绍,而且也没有指出他们的联系转载 2016-01-21 11:01:31 · 408 阅读 · 0 评论 -
为什么 LR 模型要使用 sigmoid 函数,背后的数学原理是什么?
为什么 LR 模型要使用 sigmoid 函数,背后的数学原理是什么? 这个问题经常被问到,但一直没找到较好的资料。Ng的视频里提到过Exponential Family相关的东西,但觉得并不能很好的解释这个问题。 著作权归作者所有。 商业转载请联系作者获得授权,非商业转载请注明出处。 作者:谢澎涛 链接:https://www.zhihu.com/question/转载 2016-01-21 11:06:22 · 5262 阅读 · 0 评论 -
挖掘频繁模、关联和相关性(2)
频繁项集挖掘方法Apriori算法 先验性质:频繁项集的所有非空子集也一定是频繁的。 如果项集II不满足最小支持度阈值min_supmin\_sup,则II不是频繁的,即P(I)<min_supP(I)<min\_sup。如果把项A添加到项集 II 中,则结果项集(I⋃A)(I\bigcup A) 不可能比 II 更频繁出现。因此,I⋃AI\bigcup A 也不是频繁的,既P(I⋃A)<min_原创 2015-10-29 21:12:22 · 603 阅读 · 0 评论 -
挖掘频繁模、关联和相关性(1)
关联规则(association rule) computer⇒antivirussoftware[support=2%;confidence=60%]computer\Rightarrow antivirus_software[support=2\%; confidence=60\%] 规则的支持度(support)和置信度(confidence)是规则兴趣的两种度量,他们反映所发现规则的有用原创 2015-10-29 17:02:52 · 484 阅读 · 0 评论