
数据挖掘
zhangshuliai
这个作者很懒,什么都没留下…
展开
-
关联规则发现和新词发现
关联规则发现常常用在购物篮分析中。假设A和B同时被买的频率很高(支持度),买A的人同时买B的可能性也很高(置信度),则可以形成一条规则:A->B。表示买A的人也会买B。对于自然语言处理来说,分词非常关键,而分词都要依赖词库。新词每天都在产生,如果词库中不包含某一个新词,则这个词就不会被分出来,所以自动发现新词酒很关键了。现在的自然语言处理还达不到语义发现新词的能力,也就是说机器第一次看到一个新原创 2012-07-22 23:53:09 · 1387 阅读 · 0 评论 -
个性化推荐
个性化推荐是针对某个人向他推荐他最感兴趣的商品。这里面有两个主题,一个是人,另一个是商品。人包括了个人基本信息、浏览购买评论的商品信息;商品主要是指商品的流行度。个性化推荐综合考虑了这两个维度,第一个维度自然不必说,第二个维度是向个人推荐最流行的商品,因为在已知的信息情况下,大众喜欢的就更有可能是个人喜欢的,但是这带来了问题,这似乎不再是个性化推荐,而变成了“共性化推荐”。所以基于流行度的原创 2012-07-23 22:53:18 · 712 阅读 · 0 评论 -
聚类和关联规则发现
聚类都有两个前提:距离相近的实体更有可能是同一个类;A与B相似,B与C相似,则A与C相似的可能性很大。所以,在聚类算法中,距离的定义至关重要。考虑一下购物篮分析,试着给商品聚类。所知道的信息只有某些商品同时被买的记录,这也是关联规则发现所需要的最基本的信息。可以根据A和B出现在同一购物篮中的频率来定义距离,频率越高,则距离越小。人的生活包含吃喝嫖赌,去商场买东西,是要满足这些各个需求的原创 2012-07-25 11:24:02 · 2943 阅读 · 0 评论 -
几中聚类算法的优缺点比较总结
k均值:优点:1,简单,易于理解和实现;2,时间复杂度低缺点:1,需要对均值给出定义,2,需要指定要聚类的数目;3,一些过大的异常值会带来很大影响;4,算法对初始选值敏感;5,适合球形聚类层次聚类:优点:1,距离和规则的相似度容易定义,限制少;2,不需要预先制定聚类数;3,可以发现类的层次关系;4,可以聚类成其它形状缺点:1,计算复杂度太高;2,奇异值也能产生很大影响;3,算法原创 2012-07-25 20:27:06 · 20907 阅读 · 3 评论 -
聚类算法的评价方法
1,专家评价:把结果拿给专家坐判断,太耗人力2,熵:计算各个类的熵,根据聚类结果里面各个数据分类的分布,需要数据事先做好标签分类3,类纯度:取每个聚类里面最大的分类数据所占的比例,也需要数据事先做好标签分类4,计算类内关联度和类间散度5,让用户评价:在推荐系统中,需要聚类商品和聚类用户,根据推荐的效果来评价聚类算法原创 2012-07-25 22:19:08 · 1569 阅读 · 0 评论 -
文本分类方法学习
让一个从没有接触过文本分类但是了解分类算法的人设计一个文本分类算法,他会怎么做?最简单的想法是对一个类里面所有的文章都分词,求出所有词的出现频率,构成一个向量,对向量归一化。拿到一篇新文章,要对其分类,可以分词此文章,组成一向量,然后和各个训练集里面的各个向量相乘求内积,内积最大的类即为新文档所属的类。这种算法有一个显而易见的问题,文档中大量出现的词实际上是一些如“的”“了”等词,这些词在原创 2012-07-26 22:18:40 · 2332 阅读 · 0 评论