数据挖掘&分析
大林-Java
专注于互联网技术IT,Java架构,数据库及数据仓库,缓存,消息,分布式,大数据
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
R语言统计分析
http://blog.fens.me/r-hadoop-intro/前言写过几篇关于RHadoop的技术性文章,都是从统计的角度,介绍如何让R语言利用Hadoop处理大数据。今天决定反过来,从计算机开发人员的角度,介绍如何让Hadoop结合R语言,能做统计分析的事情。目录R语言介绍Hadoop介绍为什么要让Hadoop结合R语言?如何让Hadoop结合R语转载 2014-02-26 09:50:51 · 1978 阅读 · 0 评论 -
常用数据挖掘算法 - 决策树ID3&关联推荐Apriori &朴素贝叶斯NBC
数据挖掘主要解决四类问题:分类:预测主题属于(A,B,C)类,前提预先知道分类,根据构造模型算法将输入数据分类,而非一个具体数值(广义预测)-(决策树,Logistic回归,神经网络)聚类:把一个对象划分若干组,核心划分依据,如果选择若干指标(成本,价格,质量)对已有体验用户群进行划分,按指标计算距离归类(K-means聚类,聚类分)根据很多特征,相似分为一组。最大化类内相似性,最小化类间相原创 2014-02-17 21:27:53 · 4141 阅读 · 0 评论 -
mahout算法源码分析之Itembased Collaborative Filtering实战
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。本系列介绍介绍mahout中的Itembased Collaborative Filtering算法,这个算法的实现的源码是org.apache.mahout.cf.taste.hadoop.item.RecommenderJob。在mahout官网是这样介绍这个算法的:RecommenderJob是转载 2014-06-11 14:49:18 · 1161 阅读 · 0 评论 -
推荐引擎内部的秘密
探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用恰当的关键词描述自己的需求,转载 2014-05-28 20:31:43 · 846 阅读 · 0 评论 -
深入推荐引擎相关算法 - 协同过滤
http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/集体智慧和协同过滤什么是集体智慧集体智慧 (Collective Intelligence) 并不是 Web2.0 时代特有的,只是在 Web2.0 时代,大家在 Web 应用中利用集体智慧构建更加有趣的应用或者得到更好的用户体验。集体智慧是指在大转载 2014-05-28 20:36:08 · 769 阅读 · 0 评论
分享