
hadoop基础
文章平均质量分 77
柯南爱上指针
·
展开
-
使用hive做单词统计
1、首先创建一个文件单词的文件,例如a.txtkk,123,weiwei,123hlooe,hadoop,hello,okh,kk,123,weiwei,okok,h2、将文件上传到hdfs中hdfs dfs -copyFromLocal ./a.txt /upload/wangwei/a.txt3、在hive中创建一个textline的表create table textlines(tex...原创 2018-06-20 20:20:55 · 2427 阅读 · 2 评论 -
MapRduce特性:全排序
现在在学习hadoop,尽量把自己学到的知识分享出来,监督自己的学习!在hadoop权威指南中说到:排序是MapReduce的核心技术。因此可以知道排序的分量。一、如何产生一个全排序文件? 1、只使用一个reduce(也就是只用一个分区:a single partition),显然不靠谱,面对大文件的时候,失去了mapreduce的优势。 2、自己定义分区函数,对数据进行分区。 ...原创 2018-05-30 16:04:27 · 508 阅读 · 0 评论 -
MapRduce特性:二次排序
在学习二次排序的过程中,觉得还是很复杂的,写一篇博客分享一下。一、什么是二次排序? 二次排序就是对value值进行排序(本身value值是不会排序的)二、例子分析 需求: 求1920-2020年100年间每年气温的最大值。 问题分析: 1、这100年的数据每年的气温数据量十分的大 2、如果在每次在reduce里面对整个气温找最大值的话很消耗...原创 2018-05-30 19:05:04 · 546 阅读 · 0 评论 -
hive行转列以及列转行(面试必问)
点我进入原文1.行转列1.1 问题引入:如何将a b 1,2,3c d 4,5,6变为:a b 1a b 2a b 3c d 4c d 5c d 61.2...转载 2019-08-17 14:30:46 · 400 阅读 · 0 评论