数据挖掘
文章平均质量分 56
mtchy
计算机领域的小菜鸟
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
浅谈分类
简单唠唠分类算法、归一化处理、测试和训练,并附上思维导图拙作一副原创 2016-05-16 17:03:02 · 530 阅读 · 0 评论 -
协同过滤浅谈
浅谈下协同过滤,其中相似性的计算,k邻域算法,slopone算法,以及显式和隐式、userCF和itemCF的区别与局限性原创 2016-05-09 14:10:30 · 1698 阅读 · 0 评论 -
朴素贝叶斯分类
简单介绍朴素贝叶斯分类,和如何计算线性特征的概率原创 2016-05-17 17:20:27 · 576 阅读 · 0 评论 -
谈一谈信息熵
(这篇文章是我在微信公众号上发表的一篇文章) 这次博主和大家谈一谈信息熵。在大家学习数据挖掘算法中的决策树时,会知道决策树是通过信息熵来判读哪个特征是最适合做当前的根结点的。当然信息熵还可以被应用于压缩领域,通过信息熵可以知道文件的压缩下限。 那么到底什么是信息熵呢?首先提到熵,我们可能想的是在中学时代我们物理中的热力学的一个概念——通过熵来表示不稳定性。香农(本文封面原创 2016-10-10 16:35:15 · 2823 阅读 · 0 评论 -
KNN算法
KNN算法原创 2017-03-03 17:23:19 · 717 阅读 · 0 评论 -
余弦相似度
余弦相似度基于余弦定理计算相似度的应用很多,比如推荐系统中的协同过滤,计算文本的相似性等等。原创 2017-03-21 16:06:23 · 1571 阅读 · 0 评论 -
PageRank
PageRank闲来无事,整理一下算法。今天整理一下PageRank。网上搜了搜感觉这篇文章还不错 http://www.cnblogs.com/fengfenggirl/p/pagerank-introduction.html本文对这篇文章进行修改加工,加入了一些自己的思想,后面代码实现用了spark而不是原文的MR。PageRank作用是给出网页的重要性,它的思想是这样的:根据“民主投票”来确原创 2017-03-21 22:53:11 · 561 阅读 · 0 评论
分享