
hadoop
文章平均质量分 58
林东平
天行健,君子以自强不息
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HDFS(分布式文件存储系统)
一 、HDFS命令行客户端的常用操作命令 (1)start-dfs.sh :自动启动整个集群 stop-dfs.sh :自动停止整个集群 (2)上传文件到hdfs中: hadoop fs -put /本地文件 /HDFS路径 (3)下载文件到客户端本地磁盘: hadoop fs -get /hdfs中的路径 /本地磁盘目录 (4)在hdfs中创建文件夹:...原创 2018-11-14 16:34:33 · 532 阅读 · 0 评论 -
WordCount(mapreduce、yarn)
作为一个hadoop的初学者,在经历了一系列繁琐复杂的hadoop集群环境安装配置之后,终于自主完成了一个wordcount程序。通过mapreduce进行分布式运算,并通过yarn进行运行调度。 wordcount是一个经典的案例,相信大家都熟悉。主要任务就是计算每个单词出现的次数并保存。实现该过程,主要包括两个阶段:map阶段: 将每一行文本数据变成<单词,1...原创 2018-11-21 13:29:27 · 426 阅读 · 2 评论 -
倒排索引创建(Mapreduce)
需求描述:假如有如下文本文件: a.txt b.txt c.txt hello tom hello jack hello jerry hello je...原创 2018-11-22 15:03:03 · 256 阅读 · 0 评论 -
分组TOP-N的mpreduce高效实现(采用了排序控制、分区控制、分组控制)
需求:有如下数据,求出每一个订单id中成交金额最大的三笔交易(字段分别为:订单id,用户id,商品名称,单价,数量),即分组求TOP-N。 order001,u001,小米6,1999.9,2 order001,u001,雀巢咖啡,99.0,2 order001,u001,安慕希,250.0,2 order001,u001,经典红双喜,200.0,4 or...原创 2018-11-24 17:05:06 · 449 阅读 · 4 评论