
Hadoop
waectr
这个作者很懒,什么都没留下…
展开
-
搭建Hadoop平台
搭建Hadoop平台1. 安装Hadoop和JDK首先大家要有Hadoop的Linux版本和JDK1.8,可以在官方网站上下载下载完成后解压到指定的位置在这里首先清除之前系统自带的JDK,这里我使用的是sudo yum -y remove java然后就是配置JDK和Hadoop的系统配置sudo vi /etc/profile## 详细的配置如下所示...原创 2020-02-02 21:07:49 · 312 阅读 · 0 评论 -
Shuffle分区及排序
所有的思路都在思维导图上,在这里直接实战进行分区和全排序//编写Bean对象package flow1;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public...原创 2019-07-19 14:28:08 · 813 阅读 · 0 评论 -
Hadoop实现数据清洗ETL
准备LKh7zAJ4nwo TheReceptionist 653 Entertainment 424 13021 4.34 1305 744 DjdA-5oKYFQ NxTDlnOuybo c-8VuICzXtU DH56yrIO5nI W1Uo5DQTtzc E-3zXq_r4w0 1TCeoRPg5dE yAr26YhuYNY 2ZgXx72XmoE -7ClGo-YgZ0 vmdPOOd...原创 2019-07-26 11:05:26 · 8301 阅读 · 0 评论 -
理解Lateral View和explode
准备好数据此处列的关系模式是 ( 电影名,电影种类 )概念EXPLODE(col):将hive一列中复杂的array或者map结构拆分成多行Lateral view:它其实就是用来和像类似explode这种UDTF函数联用的,lateral view 会将UDTF生成的结果放到一个虚拟表中,然后这个虚拟表会和原本的数据表每个id做jion,来达到将UTDF中的数据分开这个UTDF函数将...原创 2019-07-26 17:02:22 · 763 阅读 · 0 评论 -
Hadoop自定义OutputFormat和InputFormat
自定义OutPutFormat相关知识点如图所示要自定义OutPutFormat,我们要做1 先写MR两个类2 FilterOutPutFormat extends FileOutPutFormat 重写RecordWriter方法public class FilterOutputFormat extends FileOutputFormat<Text,Nu...原创 2019-07-22 21:00:56 · 320 阅读 · 0 评论 -
HBase Shell操作
基本操作进入命令行:在hbase/中输入 bin/hbase shell查看数据库中的表:list目前还没建表表操作命名空间在概念理解上就是对不同的表做一个分类,就好像把不同的表放在不同的数据库中一样列出所有命名空间:list_namespace创建命名空间create_namespace 'ns1'删除命名空间drop_namespace 'n...原创 2019-07-27 16:34:48 · 150 阅读 · 0 评论