
Hadoop技术
文章平均质量分 89
攻城狮墨翁
攻城狮
展开
-
MapReduce实现join操作
前阵子把MapReduce实现join操作的算法设想清楚了,但一直没有在代码层面落地。今天终于费了些功夫把整个流程走了一遭,期间经历了诸多麻烦并最终得以将其一一搞定,再次深切体会到,什么叫从计算模型到算法实现还有很多路要走。数据准备首先是准备好数据。这个倒已经是一个熟练的过程,所要做的是把示例数据准备好,记住路径和字段分隔符。准备好下面两张表:(1)m_ys_lab原创 2013-05-30 19:50:44 · 22428 阅读 · 9 评论 -
Mahout 0.8维护笔记
(0)类:org.apache.mahout.clustering.spectral.common.VectorMatrixMultiplicationJob方法:public static DistributedRowMatrix runJob(Path markovPath, Vector diag, Path outputPath) throws IOExcep原创 2014-03-27 11:00:14 · 1568 阅读 · 0 评论 -
Mahout 0.5部署
Mahout下载与安装1、下载Mahout。到地址[1]可以找到镜像地址。我们下载Mahout 0.5。请将mahout-distribution-0.5.tar.gz和mahout-distribution-0.5-src.zip都下载下来,前者是正式软件,后者是源文件,用于导入eclipse以便修改并重新编译所需要的包。2、在/home/user(你自己的用户名)目录下创建一个原创 2013-07-12 16:39:57 · 4670 阅读 · 6 评论 -
Hadoop命令操作
查看某文件夹下所有文件大小并按降序排序:hf -dus /group/userdir/hive/* |sort -n-r-k2 > /home/username/output/result.txt或者hf -count/group/userdir/hive/* |sort -n -r -k3 >/home/username/output/result2.txt后者的输出列表是:原创 2013-05-02 10:06:28 · 1207 阅读 · 0 评论 -
Mahout Spectral聚类
坑爹的Mahout 0.5!把源代码翻了个遍,修改了若干个bug,重编译了三个核心包,终于跑通了谱聚类(Spectral Clustering),先把代码放上来。以下约定:* $LOCAL表示本地数据存放目录* $HADOOP_MAHOUT表示hadoop集群的mahout输出目录* $MAHOUT_HOME表示本地mahout的安装目录数据准备:00.80原创 2013-08-10 19:26:03 · 5489 阅读 · 3 评论 -
Mahout K-means聚类
以下约定:* $LOCAL表示本地数据存放目录* $HADOOP_MAHOUT表示hadoop集群的mahout输出目录* $MAHOUT_HOME表示本地mahout的安装目录--上传数据hf -put $MAHOUT_HOME/test-data.csv \$HADOOP_MAHOUT/testdata--hadoop命令行执行kmeans clus原创 2013-08-08 16:35:23 · 6139 阅读 · 1 评论 -
Hive高级应用
假设有个表有两个字段key val1_val2_val3_val4_val5想把第二个字段以“_”为分隔符切割成多行,如下:key val1key val2key val3key val4key val5第二个字段包含的“_”不确定代码如下:selectcol1,col2_subfrom (--以下替换成性感的原始表select'原创 2013-04-24 15:45:51 · 2032 阅读 · 0 评论 -
Mahout Canopy聚类
读过孟岩的《理解矩阵》系列博文[1]~[3],其中的一段论述让我很受用:学习一门学问,最重要的是把握主干内容,迅速建立对于这门学问的整体概念,不必一开始就考虑所有的细枝末节和特殊情况,自乱阵脚[2]。本着这样的学习思路,我们按以下步骤来快速了解Mahout中怎么使用Canopy聚类。* Canopy Clustering是什么?* 输入数据的格式是什么?* 输出结果如何查看原创 2013-07-30 19:23:43 · 4384 阅读 · 1 评论 -
Hive join操作小结
本篇对Hive QL中join、left outer join、left semi join和full outer join等表连结操作作一简要总结。1、测试表准备首先准备三张测试表,内容分别为:hql_jointest_aidname1 a2 b3 c4 d5 e6 f7 g8 h原创 2012-10-25 22:11:41 · 26219 阅读 · 1 评论 -
MapReduce作业提交过程
hadoop jar [mainClass] args...上面这一行,是官方文档[1]给出的用于提交MapReduce作业的命令行。我们就从这一命令开始说起,研究一下当我们在SecureCRT或者XShell等终端将它提交后,系统依次发生了什么。为了方便说明,我们结合Hadoop(版本0.19.1)自带的WordCount样例进行解析,WordCount的功能是计算出一个或原创 2013-06-08 16:13:09 · 4604 阅读 · 0 评论 -
MapReduce简史
Google的经典论文2004年12月,Google公司发布MapReduce经典论文:来自Jeffrey Dean和Sanjay Ghemawat的“MapReduce: Simplified Data Processing on Large Clusters”,该文于2005年4月正式发表于国际会议OSDI,标志着Google的大规模数据处理系统MapReduce公开。(http:原创 2013-04-08 11:17:28 · 2094 阅读 · 0 评论 -
MapReduce实现大矩阵乘法
引言何为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆)的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新浪微博注册用户数超5亿,日活跃用户4629万[1],如果我们要探索这4000多万用户可以分成哪些类别,原创 2013-06-09 19:25:24 · 46216 阅读 · 36 评论