
hadoop
yuejing987
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
1.初始Hadoop
1.1大数据 大数据胜于好算法 1.2数据的存储与分析 如果我们有100个数据集,每个硬盘存储1%的数据,并行读取,那么不到2分钟就可以读完所有数据。 存在的问题: 硬件故障问题:通过复制来解决 大多数分析任务需要以某种方式结合大部分数据来共同完成分析:MapReduce提出一种编程模型,转化为键值对来完成。 1.3MapReduce 1)为只需要短短几分钟或几...原创 2018-08-11 17:51:09 · 153 阅读 · 0 评论 -
2.MapReduce
1.MapReduce是一种可用于数据处理的编程模型,优势在于处理大规模数据集。 2.在MapReduce中分为map和reduce阶段,我们选择文本格式作为输入格式,将数据集的每一行作为文本输入,键是某一行起始位置相对于文件起始位置的偏移量。这里是Mapper类是一个泛化类型,分别指定map的输入键,输入值,输出键和输出值。map(Longwritable key,Text value,Con...原创 2018-08-19 13:11:38 · 180 阅读 · 0 评论