
Hadoop
小木偶-嗯嗯
追求在“数据挖掘/自然语言处理”上的卓越,争取挤进小牛的行列,哈哈~~
展开
-
WordCount运行详解
Hadoop集群(第6期)WordCount运行详解转载地址:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的转载 2014-12-01 15:08:16 · 1415 阅读 · 0 评论 -
PipeMapRed.waitOutputThreads(): subprocess failed with code N
经常遇到的exception是:PipeMapRed.waitOutputThreads(): subprocess failed with code N“OS error code 1: Operation not permitted” “OS error code 2: No such file or directory” “OS error code 3: No such process”转载 2017-12-14 15:26:54 · 1077 阅读 · 0 评论 -
基于RHadoop的Logistic regression算法
library(rmr2)## @knitr logistic.regression-signaturelogistic.regression = function(input, iterations, dims, alpha){## @knitr logistic.regression-map lr.map = function(., M) {原创 2017-05-18 10:43:53 · 411 阅读 · 0 评论 -
RHadoop协同过滤算法
#####################################################################################################第一步,建立物品的共现矩阵:对用户分组,找到每个用户所选的物品,单独出现计数,及两两一组计数。##################################################原创 2017-05-17 16:03:10 · 508 阅读 · 0 评论 -
MapReduce 编程模型在日志分析方面的应用
简介日志分析往往是商业智能的基础,而日益增长的日志信息条目使得大规模数据处理平台的出现成为必然。MapReduce 处理数据的有效性为日志分析提供了可靠的后盾。本文将以对访问网页用户的日志进行分析,进而挖掘出用户兴趣点这一完整流程为例,详细解释 MapReduce 模型的对应实现,涵盖在 MapReduce 编程中对于特殊问题的处理技巧,比如机器学习算法、排序算法、索引机制、连接机转载 2014-12-05 11:39:40 · 949 阅读 · 0 评论 -
PageRank算法简介及Map-Reduce实现
PageRank对网页排名的算法,曾是Google发家致富的法宝。以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理。一、什么是pagerank PageRank的Page可是认为是网页,表示网页排名,也可以认为是Larry Page(google 产品经理),因为他是这个算法的发明者之一,还是google CEO(^_^)。Page转载 2014-12-05 11:16:56 · 1652 阅读 · 0 评论 -
MapReduce的模式、算法和用例
英文原文:MapReduce Patterns, Algorithms, and Use Cases,编译:juliashine在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers, Reduces, Combiners, Partitioner转载 2014-12-05 11:37:13 · 834 阅读 · 0 评论 -
Writing an Hadoop MapReduce Program in Python
转载文章:http://www.tianjun.ml/essays/19英文原文:http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/写作缘由尽管Hadoop的框架是用Java写的,但是基于Hadoop运行的程序并不一定要用Java来写,我们可以选择一些其他的编程语言转载 2014-12-04 12:12:55 · 572 阅读 · 0 评论 -
hadoop — MapReduce例子 (求平均值)
参考文章:http://www.cnblogs.com/-wangjiannan/p/3590438.htmlmath.txt:张三 88李四 99王五 66赵六 77china.txt:张三 78李四 89王五 96赵六 67english.txt:张三 80李四转载 2014-12-01 16:26:17 · 3853 阅读 · 0 评论 -
RHadoop搭建
1) RHadoop安装下载RHadoop相关的2个程序包:https://github.com/RevolutionAnalytics/RHadoop/wiki/Downloadsrmr-3.3.1rhdfs-1.0.8安装依赖库:安装上面的两个库之前,我们需要先安装这两个库的依赖库。首先是rJava,由于我们已经配置好JDK1.8的环境,运行R CMD jav原创 2017-12-15 13:11:06 · 983 阅读 · 0 评论