Hadoop
waectr
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
搭建Hadoop平台
搭建Hadoop平台 1. 安装Hadoop和JDK 首先大家要有Hadoop的Linux版本和JDK1.8,可以在官方网站上下载 下载完成后解压到指定的位置 在这里首先清除之前系统自带的JDK,这里我使用的是 sudo yum -y remove java 然后就是配置JDK和Hadoop的系统配置 sudo vi /etc/profile ## 详细的配置如下所示 ...原创 2020-02-02 21:07:49 · 356 阅读 · 0 评论 -
Shuffle分区及排序
所有的思路都在思维导图上,在这里直接实战进行分区和全排序 //编写Bean对象 package flow1; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; public...原创 2019-07-19 14:28:08 · 849 阅读 · 0 评论 -
Hadoop实现数据清洗ETL
准备 LKh7zAJ4nwo TheReceptionist 653 Entertainment 424 13021 4.34 1305 744 DjdA-5oKYFQ NxTDlnOuybo c-8VuICzXtU DH56yrIO5nI W1Uo5DQTtzc E-3zXq_r4w0 1TCeoRPg5dE yAr26YhuYNY 2ZgXx72XmoE -7ClGo-YgZ0 vmdPOOd...原创 2019-07-26 11:05:26 · 8411 阅读 · 0 评论 -
理解Lateral View和explode
准备好数据 此处列的关系模式是 ( 电影名,电影种类 ) 概念 EXPLODE(col):将hive一列中复杂的array或者map结构拆分成多行 Lateral view:它其实就是用来和像类似explode这种UDTF函数联用的,lateral view 会将UDTF生成的结果放到一个虚拟表中,然后这个虚拟表会和原本的数据表每个id做jion,来达到将UTDF中的数据分开 这个UTDF函数将...原创 2019-07-26 17:02:22 · 817 阅读 · 0 评论 -
Hadoop自定义OutputFormat和InputFormat
自定义OutPutFormat 相关知识点如图所示 要自定义OutPutFormat,我们要做 1 先写MR两个类 2 FilterOutPutFormat extends FileOutPutFormat 重写RecordWriter方法 public class FilterOutputFormat extends FileOutputFormat<Text,Nu...原创 2019-07-22 21:00:56 · 348 阅读 · 0 评论 -
HBase Shell操作
基本操作 进入命令行: 在hbase/中输入 bin/hbase shell 查看数据库中的表:list 目前还没建表 表操作 命名空间 在概念理解上就是对不同的表做一个分类,就好像把不同的表放在不同的数据库中一样 列出所有命名空间: list_namespace 创建命名空间 create_namespace 'ns1' 删除命名空间 drop_namespace 'n...原创 2019-07-27 16:34:48 · 176 阅读 · 0 评论
分享