
大数据
CodeGuN
道阻且长
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce之间的嵌套应用
参考:https://blog.youkuaiyun.com/u010521842/article/details/75042771 感谢博主 多个MapReduce之间的嵌套 在Coding过程中发现,大多数时候需要使用到MapReduce的嵌套运行 在网上搜了好久才找到详细合适的方案,记录下来。 根据log日志计算log中不同的IP地址数量是多少 字段使用Tab分割 实现方法 任务分为两个MR过程,...转载 2020-01-16 23:03:02 · 282 阅读 · 0 评论 -
MapReduce学习WordCount
MapReduce wordcount原理 wordcount类 import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer;![在...原创 2020-01-14 12:44:40 · 145 阅读 · 0 评论 -
深入理解MapReduce原理
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(...原创 2020-01-13 22:18:09 · 242 阅读 · 0 评论 -
HDFS分布式文件系统
为什么需要HDFS: 一台计算机存储的容量有限,一旦数据量达到一定级别,就需要将数据存放在多台机器上,这就是分布式文件系统,称为DFS(DistributedFile System) 什么是DFS 分布式文件系统DFS是基于Master/Slave模式,一个系统能提供多个供用户访问的服务器,一般都会有容错和备份的功能。 DFS结构 物理结构: 由计算机集群中的多个节点构成 节点分为两类: 第一...原创 2019-11-03 10:49:06 · 242 阅读 · 1 评论 -
Centos上安装Hadoop集群遇到的坑
参考:https://blog.youkuaiyun.com/pucao_cug/article/details/71698903 大体于参考的博客相同,有小部分区别: 1、安装完成之后,启动过程报错: Starting namenodes on [hadoopm] ERROR: Attempting to operate on hdfs namenode as root ERROR: but there i...原创 2019-10-24 13:55:31 · 597 阅读 · 0 评论