
hadoop
文章平均质量分 77
zhhphappy
有什么样的想法,就有什么样的生活。
展开
-
搜索切换dump之MapReduce讲解
[size=medium]分享聚合dump的是评价的数据库,由于数据量超大且经常超时所以进行了数据源的切换,即从数据库dump切换为云梯dump,整个工作就是由一个mr的job去云梯读取数据然后进行一系列转化最后输出数据到文件的过程。 对于MapReduce编程模型,网上有很多文章,自己去学习哈,在这里不再赘述啦~,此处就这次mr的代码进行讲解。 MR的核心一共三个类,[color=re...2012-12-23 20:16:52 · 163 阅读 · 0 评论 -
hive原理(未完。。)
[size=medium]hive就是一个将hiveql(其实是sql的子集或者说一点点的超集)语句转化为一系列可以在Hadoop集群上运行的MR的工具,通常在客户端执行 hive 命令(淘宝有ide,所以不用安装hive啦 :wink: )然后输入 SQL 语句后, hive 将 SQL 语句生成多个 MR 的 job ,然后将这些 job 提交给 hadoop 进行执行,完成后,再把结果放入到...原创 2013-01-06 22:46:29 · 170 阅读 · 0 评论 -
记录下执行MapReduce的过程
[size=medium]在把把代码迁移到淘单之前,直接在datedomin里把我的mr打包扔到sns的gateway上去跑的时候,因为有第三方依赖,所以还要设置依赖参数啥的,比较不爽,代码迁移到淘单后,依赖关系一目了然,一并迁移过来就好啦,然后就是把代码打成jar包扔掉gateway上去跑就行咯。。 下面记录下期间抛出的错误哈 [color=red]error 1[/color]:[im...原创 2013-01-08 14:37:12 · 126 阅读 · 0 评论 -
hive的join操作
[size=medium]Join的语法规则: join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_referenc...原创 2013-01-28 15:43:11 · 140 阅读 · 0 评论