
MapReduce
wbj0110
这个作者很懒,什么都没留下…
展开
-
HBase/Hadoop学习笔记 (转)
HBase/Hadoop学习笔记 学习目标: 至少掌握五点: 1. 深入理解HTable,掌握如何结合业务涉及高性能的HTable。 2. 掌握与HBase的交互,通过HBase Shell命令及Java API进行数据的增删改查。 3. 掌握如何用MapReduce分析HBase里的数据 ...原创 2013-12-03 09:41:40 · 226 阅读 · 0 评论 -
运行MapReduce作业做集成测试
准备工作 以windows环境为例: 安装jdk,设置环境变量JAVA_HOME为jdk安装目录 安装Cygwin,安装时注意选择安装软件包openssh - Net 类,安装完成将cygwin/bin加入环境变量path。 确认ssh。打开cygwin命令行,分别执行以下命令 安装sshd:$ ssh-host-config 启动sshd服务:$ net s...原创 2013-12-17 09:46:31 · 123 阅读 · 0 评论 -
HBase入门篇(转)
1-HBase的安装HBase是什么?HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧的图所示:HBase在产品中还包含了Jetty,在HBase启动时采用嵌入式的方...原创 2014-02-07 09:37:47 · 171 阅读 · 0 评论 -
用Hadoop扔飞镖算Pi——献给圆周率日
众所周知,在一个正方形上抛飞镖,假设有一个半径为正方形边长的1/4圆,则抛的飞镖在1/4圆内的概率为1/4圆面积除以正方形面积,即(pi*r^2 /4)/r^2,假设抛飞镖在圆内的概率为n,则pi=4n,通过蒙特卡洛模拟则可算出一个较接近的pi。由于频率是不断接近概率的,因此必须抛很多次飞 镖,这里采用了Hadoop去模拟。 1. [代码]MapReduce的mainRunner忽略...原创 2014-02-26 09:14:02 · 345 阅读 · 0 评论 -
MapReduce 流程详述
一、MapReduce的提出、介绍MapReduce 是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个 Map函数处理一个基于key/value pair 的数据集合,输出中间的基于 key/value pair 的数据集合;然后再创建一个 Reduce 函数用来合并所有的具有相同中间 key 值的中间 value 值。因此,可以将许多数据处理问题,转化为...原创 2013-09-12 09:12:32 · 125 阅读 · 0 评论 -
eBay readies next generation search built with Hadoop and HBase
eBay presented a keynote at Hadoop World, describing the architecture of its completely rebuilt search engine, Cassini, slated to go live in 2012. It indexes all the content and user metadata to pro...原创 2013-10-13 13:04:06 · 145 阅读 · 0 评论 -
Hadoop实例:单轮MapReduce的矩阵乘法
最近开始在看@王斌_ICTIR老师的《大数据:互联网大规模数据挖掘与分布式处理》,下面是对第二章提到的的单轮计算矩阵乘法进行的学习实现过程。 矩阵的乘法只有在第一个矩阵的列数(column)和第二个矩阵的行数(row)相同时才有定义。一般单指矩阵乘积时,指的便是一般矩阵乘积。若A为i×r矩阵,B为r×j矩阵,则他们的乘积AB(有时记做A · B)会是一个i×j矩阵...原创 2013-11-02 18:36:38 · 213 阅读 · 0 评论 -
基于Map-Reduce的相似度计算
不久前(6.29),参加了ChinaHadoop的夏季沙龙,听了人人的大牛讲了基于Map-Reduce的相似度计算的优化,感觉对Map-Reduce编程模型的理解又进一步加深了,在这里把该算法总结成博文,以期能够更加透彻的理解该算法。相似度的计算在文本的分类、聚类、推荐系统、反Spam中应用广泛。本文以文本的相似度计算为例,讲述如何基于MR计算相似度。文本相似度的计算一般先使用VSM...原创 2014-04-29 15:05:36 · 147 阅读 · 0 评论