
hadoop
文章平均质量分 76
lsxy117
待人真诚,做事有上进心,头脑灵活,接受能力强。处事自信、认真、有主见,不怕辛苦。我憧憬做一个事业成功的人、能带快乐给身边人的人。
展开
-
Hadoop1.2.1 完全分布式集群搭建实操笔记
前期准备工作:1.修改Linux主机名:/etc/hostname ubuntu系统:vi /etc/hostname 将ubuntu默认的主机名ubuntu改为suh012.修改IP:/etc/network/interfaces 修改原创 2015-08-08 16:06:46 · 2990 阅读 · 1 评论 -
hive数据去重,并取指定的一条数据
hive数据去重,并根据需求取其中一条数据案例:name adx tran_id cost ts ck 5 125.168.10.0 33.00 1407234660ck 5 187.18.99.00 33.32翻译 2015-12-23 15:32:58 · 31472 阅读 · 0 评论 -
hive 空值的处理
hive的使用中不可避免的需要对null、‘’(空字符串)进行判断识别。但是hive有别于传统的数据库。下面一一说明:(1)不同数据类型对空值的存储规则int与string类型数据存储,null默认存储为 \N;string类型的数据如果为"",存储则是"";另外往int类型的字段插入数据“”时,结果还是\N。 (2)不同数据类型,空值的查询对于int可以使用is原创 2015-12-23 15:28:29 · 41889 阅读 · 0 评论 -
Oozie的input-events和done-flag使用
需求场景:使用Oozie时 coordinator job间的执行顺序控制但随着业务的扩充,新加了一些 coordinator job,也都是放在凌晨的时候去执行,但有的job依赖于早先存在的 coordinator job,所以不同的coordinator job间执行顺序是有规则的。比较笨的方法是直接将新的job的时间设置为远后于其依赖job时间之后,以保证依赖的job已经执行完。原创 2015-11-10 17:06:21 · 3237 阅读 · 1 评论 -
MapReduce案例学习(6) 列出工资比公司平均工资要高的员工姓名及其工资
设计思路:map阶段:这里需要汇总所有员工的工资计算平均工资,所以用了一个统一的名称作为key以便把所有员工都汇总到起来,然后将员工姓名和工资用逗号分隔拼接为字符串作为value输出;reduce阶段:所有员工都在汇总到一起,遍历传入的value,对其数据进行分拆获得员工姓名和工资,并将他以姓名作为key,工资作为value加入到一个HashMap对象中。遍历value的同时叠加所有人员的原创 2015-09-20 16:22:29 · 2569 阅读 · 0 评论 -
MapReduce案例学习(5) 列出工资比上司高的员工姓名及其工资
设计思路:数据部分截取,用于方便分析 --------------------------------- empno ename mgr sal 7369 SMITH 7902 800 7499 ALLEN 7698 1600 7521原创 2015-09-20 16:14:15 · 2356 阅读 · 0 评论 -
MapReduce案例学习(7) 列出名字以J开头的员工姓名及其所属部门名称
设计思路:map阶段:读取每行信息直接将名字以J开头的员工姓名和部门名称输出reduce阶段:无需reduce处理package week06;import java.io.IOException;import java.text.DateFormat;import java.text.SimpleDateFormat;import java.util.Date;imp原创 2015-09-20 16:24:57 · 1350 阅读 · 0 评论 -
MapReduce案例学习(4) 求各个城市的员工的总工资
设计思路:map阶段:将城市作为key,员工工资作为value输出;reduce阶段:将相同key汇总,遍历value获得工资进行叠加处理计算总工资。package week06;import java.io.IOException;import java.text.DateFormat;import java.text.SimpleDateFormat;import ja原创 2015-09-20 16:05:59 · 2025 阅读 · 0 评论 -
MapReduce案例学习(9) 将全体员工按照总收入(工资+提成)从高到低排列,要求列出姓名及其总收入
设计思路:该题处理方案和MapReduce案例学习(8) 列出工资最高的头三名员工姓名及其工资 类似的,只要将employee类中的compareTo方法改写比较规则即可map阶段:将employee对象作为key,value直接设置为NullWritablereduce阶段:在对reduce的输入参数value进行遍历时,里面的对象都是根据key自动排好序的,所以直接把相关信息拼接输原创 2015-09-20 16:43:37 · 2676 阅读 · 0 评论 -
MapReduce案例学习(8) 列出工资最高的头三名员工姓名及其工资
设计思路:因为mapreduce对key能实现自动排序,当key为数字时就按自然顺序排序,是字母时按字典顺序排序。所以处理这个案例时巧妙的使用mapreduce对key值的自动排序功能,将employee对象直接作为key,并重新定义当key为employee对象时,mapreduce的排序规则。map阶段:将employee对象作为key,可以将员工的工资作为value,或者因为员工工资可以原创 2015-09-20 16:37:47 · 2699 阅读 · 0 评论 -
Hive集成Mysql作为元数据时,提示错误:Specified key was too long; max key length is 767 bytes
在进行Hive集成Mysql作为元数据过程中,做完所有安装配置工作后,进入到hive模式,执行show databases;执行正常,接着执行show tables;时却报错。关键错误信息如下:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key leng原创 2015-08-09 22:59:28 · 1839 阅读 · 0 评论 -
Hadoop2.6.0完全分布式集群搭建实操笔记
注意:apache提供的hadoop-2.6.0的安装包是在32位操作系统编译的,如果在64位的操作上安装hadoop-2.6.0就需要重新在64操作系统上重新编译。前期准备工作:1.修改Linux主机名:/etc/hostname2.修改IP:/etc/network/interfaces3.修改主机名和IP的映射关系:/etc/hosts4.查看防火墙状态、关闭防火原创 2015-08-08 16:10:03 · 1742 阅读 · 0 评论 -
关系型数据库导出至Hive仓库脚本
业务场景:工作中经常需要将关系型数据库(Oracle、MySQL)中的表导入到hive中进行大数据运算,故编写快捷的脚本实现,脚本名为:RDBtoHive.sh。实际案例:将Oracle中表tbl_o_test 数据导入到hive 的表 tbl_h_test 中,这里表 tbl_h_test 的结构及字段顺序同表tbl_o_test 一致,注意字段类型可以不一致,但是字段顺序需一原创 2016-04-22 17:44:52 · 1668 阅读 · 0 评论