
数据挖掘
文章平均质量分 84
huagong_adu
感兴趣方向机器学习数据挖掘推荐系统搜索希望可以和同道中人多多交流
展开
-
Weka中的ARFF文件
Weka中用的ARFF文件格式分为两部分:Header 和Data。其中Header部分用于定义Relation的名字、一系列Attribute的名字和类型,比如: @RELATION iris @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE sepalwidth NUMERIC @ATTRIBUTE petallength原创 2012-12-13 17:00:18 · 8262 阅读 · 0 评论 -
频繁项集挖掘算法之FPGrowth
背景: 频繁项集挖掘算法用于挖掘经常一起出现的item集合(称为频繁项集),通过挖掘出这些频繁项集,当在一个事务中出现频繁项集的其中一个item,则可以把该频繁项集的其他item作为推荐。比如经典的购物篮分析中啤酒、尿布故事,啤酒和尿布经常在用户的购物篮中一起出现,通过挖掘出啤酒、尿布这个啤酒项集,则当一个用户买了啤酒的时候可以为他推荐尿布,这样用户购买的可能性会比较大,从而达到原创 2014-01-01 22:30:23 · 49664 阅读 · 7 评论 -
主题模型-LDA浅析
上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有原创 2012-09-03 14:09:24 · 261210 阅读 · 34 评论