Hadoop
文章平均质量分 83
白石江边
GIS
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop WordCount(Streaming,Python,Java三合一)
一、Steaming Map任务: #!/bin/bash awk 'BEGIN{ FS = "[ ,. ]" OFS = "\t" }{ for( i = 1; i { dict[$i] += 1 } }END{ for( key i原创 2016-10-22 10:46:33 · 783 阅读 · 0 评论 -
Hive基本使用——命令行
Hive 用户接口主要有三个:命令行(CLI),客户端(Client) 和 Web界面(WUI)。其中最常用的是 CLI,启动的时候,会同时启动一个 Hive 服务。Client 是 Hive 的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出 Hive Server 所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive原创 2016-10-22 22:09:47 · 1114 阅读 · 0 评论 -
Hadoop Mapreducer两文件数据求交拼接
两份数据,若干行,若干列。均有相同一列,作为key。连接,完整显示两份数据。 data1.txt zhangsan man 25 teacher lisi man 28 police wangwu man 26 student guoxiao man 26 salesman wangmeng w原创 2016-11-11 20:34:12 · 2418 阅读 · 0 评论 -
Mapreducer任务启动
一、Streaming 创建start.sh文件,内容如下 #!/bin/bash hadoop fs -rm -r/data/apps/zhangwenchao/mapreduce/streaming/wordcount/output hadoop jar /data/tools/hadoop/hadoop-2.6.2/share/hadoop/tools/lib/hadoop原创 2016-10-22 10:08:42 · 543 阅读 · 0 评论
分享